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本 书 介绍 了 并 行 计算 机 体系 结构 、 并 行 编程 模型 与 语言 等 相关 知识 。 本 书 内 
容 共 分 为 4 章 。 第 1 章 介 绍 并 行 计算 的 基础 ,包括 并 行 计算 的 背景 .并 行 编程 模 
型 .并 行程 序 设计 的 基本 思想 ; 第 2 章 重点 介绍 了 并 行 计算 机 的 体系 结构 ,首先 介 
绍 了 并 行 计算 机 传统 体系 结构 的 发 展 历程 以 及 四 种 典型 的 并 行 计算 机 体系 结构 ， 
然后 对 目前 最 新 的 基于 多 核 (包括 多 核 CPU ,GPU,Cell BE 等 ) 的 计算 机 体系 结构 
进行 详细 介绍 ,有 助 于 读者 理解 不 同 并 行 计算 体系 结构 及 其 关键 技术 与 未 来 发 展 
趋势 。 第 3 章 重 点 介绍 了 并 行 编程 模型 与 语言 , 既 包 括 目 前 应 用 最 为 广泛 的 MPI 
与 OpenMP, 又 包括 最 近 出 现 的 MapReduce, CUDA, Cell BE 编程 等 知识 ,可 帮助 
读者 使 用 不 同 的 并 行 编程 模型 与 语言 ,在 不 同 的 并 行 计算 机 体系 结构 上 进行 并 行 
程序 的 开发 。 第 4 章 以 大 规模 稀 玻 线性 方程 组 求解 的 并 行 化 为 例 ,介绍 了 大 规模 稀 
玻 线性 方程 组 并 行 求解 的 全 过 程 , 有 助 于 帮助 读者 将 并 行 化 思想 应 用 于 实际 问题 中 。 
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保留 传统 的 并 行 计算 机 体系 结构 (SMP.DSM、MPP、 机 群 ) 及 目前 应 用 最 为 
广泛 的 并 行 编程 模型 与 语言 (MPI、OpenMP) 的 相关 内 容 。 

重点 论述 最 近 出 现 的 并 行 计算 机 体系 结构 (多 核 CPU、GPU、Cell BE) 及 并 
行 编程 模型 与 语言 (MapReduce .CUDA , Cell BE 编程 ) 。 

提供 大 量 的 实例 ,可 操作 性 强 。 

适合 作为 高 等 院 校 计算 机 科学 与 技术 学 科 各 专业 本 科 生 、 研 究 生 的 教材 ,也 
可 作为 有 并 行 计 算 需 求 的 相关 专业 研究 生 的 参考 书 。 
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并 行 计 算 基 础 


1.1 背景 


在 当代 科研 活动 中 ,计算 已 经 成 为 与 理论 .实验 鼎足 而 立 的 第 三 个 支柱 。 不 断 提高 的 
计算 能 力 为 科技 工作 者 提供 了 大 规模 数据 处 理 分 析 和 复杂 理论 模型 研究 的 有 效 手段 ,使 
人 们 能 够 在 更 加 深入 ,精细 和 更 大 规模 的 水 平 上 对 研究 对 象 进行 分 析 和 计算 模拟 ,成 为 发 
现 新 现象 .认识 科学 规律 .进行 工程 设计 不 可 替代 的 手段 。 我 国 大 气 物 理 研 究竟 基 人 叶 笃 
正 院士 曾 在 1985 年 指出 ,超级 计算 使 得 大 气 科学 从 一 门 经 验 科 学 变 成 了 理论 科学 和 实验 
科学 ,人 们 可 以 通过 计算 模拟 来 研究 和 预测 天 气 和 气候 的 变化 。 目 前 ,人 们 用 计算 的 方法 
研究 从 基本 粒子 .生命 现象 到 宇宙 演化 、 社 会 系统 等 各 种 问题 。 这 极 大 地 改变 和 拓展 了 传 
统 的 研究 方法 ,推动 了 新 学 科 领 域 的 产生 和 科学 研究 能 力 的 革命 性 发 展 , 对 当代 科学 和 技 
术 前 沿 的 开拓 起 着 不 可 替代 的 作用 。 

很 难 想象 如 果 不 借助 超级 计算 技术 ,现今 的 天 气 预报 将 如 何 开展 ; 而 在 药物 设计 领 
域 ,计算 技术 改变 了 药物 筛选 的 模式 ,使 其 从 原先 的 “体外 (in vitro) 筛 选 一 体内 (Cin vivo? 
筛选 变 为 “虚拟 (in silico) 筛 选 一 体外 (in vitro) fifi HR P3 Cin. vivo)”。 超 级 计算 机 的 发 
展 更 使 其 实现 了 虚拟 筛选 的 高 通 量化 ,使 得 新 药 研 发 的 周期 缩短 了 0. 9 年 ,研发 的 直接 费 
用 降低 达 1. 3 亿美 元 。 此 外 ,计算 模拟 在 新 材料 设计 、 新 型 纳米 结构 与 分 子 器 件 设 计 、 全 
球 气候 变化 研究 .工程 设计 、 航 空 航天 器 制造 等 方面 都 发 挥 着 重要 作用 。 

世界 上 许多 国家 对 计算 能 力 的 建设 和 计算 科学 的 发 展 都 给 予 了 高 度 重 视 。 美 国 从 
1970 年 起 就 实施 了 一 系列 推动 计算 科学 发 展 的 国家 计划 ,包括 “战略 计算 机 计划 ” 
(CP) “高 性 能 计算 和 通信 计划 ”(HPCC) “加 速 战略 计算 计划 ”(ASCD “先进 计算 设施 
伙伴 计划 ”(PACI) 等 。2005 年 ,在 美国 总 统 信 息 技术 咨询 委员 会 (PITAC) 所 做 的 报告 
《计算 科学 : 确保 美国 的 竞争 力 ) 中 指出 “二 十 一 世纪 最 伟大 的 科学 突破 将 是 计算 科学 所 
获得 的 成 就 ”, 该 报告 建议 “联邦 政府 、 学 术 界 和 工业 界 必须 共同 制定 一 个 数 十 年 的 发 展 蓝 
图 ,在 科学 和 工程 学 科 方 面 推动 计算 科学 的 发 展 ”, 并 警告 说 :“ 美 国 现 正 处 在 关键 时 刻 ， 
如 果 我 们 还 不 高 瞻 远 瞩 和 承担 自己 的 义务 ,长 此 以 往 ,国家 的 科学 领导 地 位 、 经 济 竞争 力 
和 国家 安全 的 后 果 不 堪 设 想 .”2006 4E. NSF 提出 了 到 2010 年 建设 千 万 亿 次 计算 规模 的 
国家 超级 计算 环境 。 
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1.1.1 现实 世界 中 的 并 行 


计算 的 目的 在 于 利用 电子 计算 机 系统 通过 人 工 建 模 的 方式 来 模拟 客观 世界 中 事物 及 
其 之 间 的 联系 和 运动 规律 。 遗 憾 的 是 ,到 目前 为 止 ,能 够 构造 的 电子 计算 机 系统 均 以 一 个 
串 行 模型 ( 冯 。 诺 依 曼 模型 ) 为 基础 。 但 在 真实 的 客观 世界 中 ,事物 之 间 的 联系 不 但 复杂 
多 样 ,而 且 其 运动 规律 具有 本 质 的 并 行 特性 。 如 何 使 用 现 有 的 串 行 模型 来 模拟 并 行 的 、 具 
有 复杂 联系 的 客观 物质 世界 一 直 是 信息 技术 的 核心 。 

使 用 电子 计算 机 模拟 客观 物质 世界 的 运转 和 状态 不 外 乎 两 种 手段 : 恰当 的 硬件 架构 
设计 和 足够 抽象 的 软件 模型 。 下 面 ,通过 两 个 实例 来 说 明 该 过 程 。 


1. 实例 1 一 一 组 织 结构 


大 多 数 信息 系统 (如 Web 服务 、 信 息 搜索 ,管理 信息 系统 等 ) 的 主要 (或 部 分 ) 功 能 都 
可 归结 为 事务 处 理 。 比 如 ,一 个 办 公 自动 化 系统 ,要 管理 实际 运行 中 的 组 织 机 构 ( 包 括 人 
员 、 部 门 、 权 利 等 )、 物 理 设 施 ( 如 房产 、 工 具 、 材 料 等 ) 以 及 它们 之 间 的 交互 、 流 通 、 与 转换 。 
这 种 系统 的 真正 目的 是 利用 计算 机 系统 来 建立 一 个 有 效 的 模型 ,模拟 现实 世界 中 组 织 机 
构 运转 的 真实 过 程 。 

一 个 大 的 组 织 机 构 ,可 能 下 辖 多 个 分 支 机 构 ,每 个 分 支 机 构 又 下 辖 若干 个 部 门 ,其 下 
可 能 还 被 划分 成 更 多 的 人 员 分 组 。 人 员 要 在 分 组 .部 门 分 支 机 构 万 至 整个 大 的 组 织 内 流 
动 ,变换 不 同 角色 。 同 一 时 刻 ,组 织 内 要 发 生 很 多 的 事情 ,计算 机 要 适时 处 理 这 些 变化 并 
将 其 呈现 给 对 此 感 兴趣 的 目标 。 因 此 ,需要 将 若干 计算 机 通过 网 络 互联 起 来 (在 其 上 运行 
软件 系统 ) ,对 组 织 机 构 中 的 上 述 对 象 建立 模型 ,管理 各 个 对 象 的 属性 及 其 之 间 的 交互 ,并 
最 终 通 过 网 络 将 其 映射 到 物理 机 器 上 执行 。 

现实 社会 的 组 织 机 构 是 为 一 定 目标 而 设立 并 运行 ,其 日 常 的 运转 过 程 就 是 完成 一 系 
列 任务 的 过 程 。 对 于 一 个 大 的 任务 ,人 类 社会 实现 它 的 方法 是 分 而 治之 , 即 通过 预定 的 管 
理 手段 和 流程 对 任务 进行 分 解 ,并 将 其 分 配给 下 属 分 支 机 构 , 最 终 经 过 层 层 分 解 ,将 具体 
的 工作 落实 到 个 人 一 一 这 在 计算 机 系统 中 ,分 别 对 应 于 不 同 规模 的 执行 单元 。 人 员 、 分 
组 部门、 分 支 机 构 等 在 执行 任务 的 过 程 中 要 有 信息 交互 ,要 互相 协调 。 同 样 地 ,计算 系统 
在 处 理 一 个 大 的 问题 时 也 要 遵循 这 样 的 原则 去 操作 。 

比如 ,房地产 公司 要 修建 一 栋 大 楼 ,其 主要 工作 包括 完成 图 纸 设 计 并 组 织 施工 。 完 成 
该 任务 ,不 同 组 织 ( 房 地 产 公 司 ) 会 有 不 同 的 做 法 ,但 不 同 的 组 织 方法 (管理 机 制 ) 会 在 很 大 
程度 上 影响 对 任务 的 进度 和 质量 。 一 个 好 的 组 织 者 可 能 会 将 图 纸 设 计 和 施工 (准备 ) 并 行 
起 来 。 在 不 同 阶段 内 ,还 可 通过 任务 分 解 和 人 员 组 织 再 进一步 将 具体 工作 进行 并 行 实施 。 
对 难以 同时 推进 的 任务 ,有 经 验 的 管理 人 员 还 可 通过 合理 的 人 员 调 配 与 进度 安排 创造 出 
并 行 实施 的 条 件 。 在 任务 并 行 过 程 中 ,管理 人 员 还 要 使 分 配 的 任务 之 间 具 有 足够 的 协调 
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机 制 ,以 确保 子 任务 作为 整体 工作 目标 的 有 机 组 成 部 分 。 这 些 也 都 是 并 行 计算 中 采用 的 
基本 做 法 。 
综 上 所 述 , 从 本 质 上 讲 , 信 息 处 理 (或 称 之 为 计算 ) 过 程 具有 天 然 的 并 行 性 。 


2. 实例 2 一 一 科学 计算 


再 看 一 个 更 加 具体 的 例子 。 

我 们 知道 ,数值 模拟 是 气候 变化 研究 的 重要 手段 之 一 。 研 究 全 球 气候 变化 ,需要 综合 
考虑 大 气 、 陆 地 海洋、 冰川 \ 植 被 .火山 .人 类 社会 活动 等 多 种 因素 。 环 境 中 的 这 些 要素 每 
时 每 刻 都 在 变化 ,而 且 需 要 使 用 不 同 的 数学 模型 对 它们 分 别 进 行 描述 。 在 真实 的 物理 世 
界 里 ,它们 之 间 有 着 很 自然 的 边界 ,并 通过 这 些 边界 完成 物质 和 能 量 的 交换 。 如 果 通 过 计 
算 机 系统 来 模拟 该 过 程 , 相 应 地 需要 在 系统 中 对 诸 要 素 进行 建 模 , 并 模拟 各 个 要 素 之 间 的 
交互 。 在 现实 中 ,海洋 、 陆 地 、 冰 川 每 一 时 刻 都 在 活动 ,一 个 子 系统 当前 时 刻 的 活动 结果 可 
能 经 过 若干 时 间 后 ,会 被 耦合 到 其 他 子 系统 中 。 因 此 ,计算 模型 也 要 能 体现 这 种 并 行 推进 
的 物理 过 程 。 

同时 ,为 了 提高 计算 速度 ,还 可 能 进一步 将 一 个 子 系统 的 计算 过 程 分 解 ,让 多 个 计算 
系统 同时 工作 以 加 快 求解 的 速度 ,这 里 也 利用 了 人 类 世界 里 将 任务 分 而 治之 并 统筹 协调 
的 思想 。 只 不 过 ,现实 世界 的 分 治 协调 是 通过 管理 人 员 的 经 验 与 智慧 ,而 计算 机 世界 的 并 
行 计算 则 基于 软件 算法 和 程序 架构 的 精巧 设计 。 

由 此 可 见 , 使 用 串 行 执行 指令 的 电子 计算 系统 来 模拟 并 行 运行 的 客观 物质 世界 ,关键 
在 于 建立 一 个 有 效 的 软 硬 件 模型 ,并 具备 足够 的 描述 能 力 来 表达 客观 事物 本 身 的 运动 变 
化 以 及 事物 之 间 的 联系 。 软 硬件 模型 需要 相当 的 抽象 和 进化 功能 ,以 适应 物理 系统 的 发 
展 变化 。 

在 当今 流行 架构 上 的 计算 系统 ,普遍 利用 了 软件 平台 的 多 任务 机 制 来 支持 并 行 。 具 
体 来 说 ,就 是 将 计算 指令 流 分 成 若干 集合 ,让 处 理 单元 轮流 对 其 执行 。 至 于 分 解 后 的 统一 
协调 问题 , 则 必须 在 软件 设计 阶段 加 以 解决 。 在 每 个 指令 流 集合 内 部 ,处 理 单元 顺序 执 
行 ,而 在 指令 流 集合 之 间 则 可 实现 并 行 执行 。 然 而 ,现实 世界 的 情况 是 : 在 每 一 时 刻 , 该 
发 生 的 事情 必然 会 发 生 , 其 先后 顺序 由 事物 本 身 的 物理 规律 决定 ,而 不 是 遵循 一 个 人 为 指 
定 的 序列 。 

因此 ,在 这 一 点 上 ,计算 系统 与 现实 世界 的 真实 情况 并 不 匹配 。 如 何 解决 这 个 不 匹 
配 , 是 并 行 计算 的 重要 任务 同时 也 是 难题 之 一 。 


1.1.2. 并 行 与 分 布 式 计算 的 概念 


信息 领域 总 是 不 乏 频 繁 出 现 的 新 概念 、 新 定义 ,而 且 它们 总 是 随 需 而 变 。 在 并 行 与 分 
布 式 计算 领域 ,有 “分 布 式 计 算 ”“ 并 行 计算 ”“ 网 络 即 计算 机 ”、“ 元 计算 ”“ 网 格 计算 ”、 
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“ 云 计 算 ” 等 各 种 说 法 。 关 于 这 些 , 虽 然 没 有 一 个 概念 的 具体 定义 得 到 了 全 体 认可 ,但 每 个 
概念 都 有 一 个 基本 为 大 家 所 公认 的 内 涵 。 为 漆 清 本 书 所 讲述 的 内 容 , 有 必要 对 这 些 概念 
做 一 个 简单 的 说 明 。 

首先 ,并 发 (concurrent) 计 算 、 并 行 (parallel) 计 算 、 分 布 式 (distributed) 计 算 都 是 非常 
相似 的 概念 ,在 实际 系统 中 ,它们 之 间 只 有 一 个 模糊 的 界限 。 分 布 式 系统 最 早 可 追溯 到 
20 世纪 70 年 代 以 太 网 出 现 之 际 。 比 如 ,ARPANET 与 E-mail 可 以 说 是 在 当时 最 为 成 功 
的 分 布 式 应 用 。 

并 发 的 概念 最 早出 现在 操作 系统 中 。 实 际 上 ,是 为 了 解决 在 串 行 执行 指令 的 系统 上 
运行 多 用 户 多 任务 的 应 用 问题 。 随 着 网 络 的 出 现 ,并 发 的 概念 逐步 扩展 到 由 多 台 物 理 设 
备 组 成 的 分 布 式 环境 ,进而 催生 了 所 谓 分 布 式 系 统 / 分 布 式 计 算 等 概念 。 

通常 来 说 ,“ 分 布 式 ” 依 设备 数据 的 布局 而 定 , 如 果 所 有 人 处理 单 元 都 能 以 共享 的 方式 访 
问 全 局 数据 , 则 该 系统 为 “共享 内 存 ? 系 统 。 而 如 果 一 个 处 理 单元 在 本 地 只 能 访问 到 全 体 
数据 中 的 一 部 分 ,通过 网 络 才能 访问 全 体 数据 中 的 另 一 部 分 (通常 在 另外 的 物理 设备 上 ) 
数据 , 则 称 该 系统 为 “分 布 式 内 存 ” 系 统 。 

并 发 .并行 ,分布 式 计算 都 是 指 在 某 一 时 刻 同时 有 若干 指令 序列 (或 指令 集合 ) 在 运 
行 。 在 单 处 理 器 设备 中 ,这 种 同时 处 理 实际 上 依赖 于 操作 系统 的 调度 ,通过 轮转 执行 机 制 
来 实现 。 而 在 多 核心 /多 处 理 器 设备 中 ,操作 系统 则 可 将 不 同 的 任务 (指令 序列 ) 调 度 到 不 
同 的 处 理 器 (核心 ) 上 ,以 实现 真正 的 同时 执行 。 在 多 个 设备 通过 网 络 连接 起 来 形成 更 大 
规模 的 系统 中 运行 的 业务 , 即 所 谓 的 分 布 式 处 理 , 则 是 通过 应 用 软件 的 自身 机 制 来 维护 全 
局 任务 自身 的 语义 。 

从 硬件 环境 角度 来 看 ,在 分 布 式 系统 上 , 既 可 运行 并 行 计算 任务 也 可 运行 分 布 式 计算 
任务 。 而 共享 内 存 系统 上 ,通常 运行 并 行 任务 或 并 发 任务 。 借 助 于 软件 进行 模型 抽象 ,也 
可 将 一 个 共享 内 存 系 统 视 为 逻辑 上 的 一 个 分 布 式 系 统 ,进而 将 分 布 式 计算 任务 运行 在 共 
享 内 存 的 物理 设备 上 。 此 时 ,其 通信 手段 不 是 借助 网 络 而 是 直接 使 用 内 存 空 间 。 

在 计算 设备 上 运行 的 业务 ,通常 有 事务 处 理 型 和 科学 计算 型 。 日 常用 到 的 信息 处 理 、 
网 络 信息 获取 等 均 可 归结 为 事务 处 理 型 应 用 。 而 科学 计算 类 型 的 应 用 则 纯粹 利用 处 理 单 
元 的 数值 计算 功能 。 这 两 者 的 主要 区 别 在 于 : 事务 处 理 多 以 整数 运算 为 主 , 兼 借助 于 少 
量 的 简单 浮 点 运算 ,而 科学 计算 类 型 应 用 则 主要 以 密集 的 高 精度 浮 点 运算 为 主 。 

在 习惯 上 ,认为 分 布 式 计算 的 内 涵 更 广泛 些 , 其 既 包 括 事 务 处 理 类 型 的 业务 ,又 包含 
科学 计算 类 型 的 业务 。 而 通常 所 说 的 并 行 计算 , 则 一 般 只 限于 科学 计算 类 型 的 业务 。 但 
这 并 不 意味 着 任何 一 个 分 布 式 系统 都 适用 于 科学 计算 。 科 学 计算 类 型 的 应 用 ,多 以 密集 
的 高 精度 浮 点 运算 为 主 , 一 个 任务 往往 由 大 量 的 迭代 组 成 ,对 通信 带宽 、 延 迟 .通信 质量 和 
效率 的 要 求 较 高 ,因此 一 般 要 求 底 层 的 运行 平台 采用 同 构 、 紧 耦合 的 系统 。 

分 布 式 的 事务 处 理 型 应 用 ,其 任务 的 划分 与 组 织 往往 与 其 所 描述 的 客观 物质 世界 中 
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事物 之 间 的 联系 密切 相关 , 即 其 分 布 式 建 模 可 接受 自然 的 基本 需求 的 指导 。 而 科学 计算 
型 应 用 ,其 软件 模型 来 自 于 描述 物质 世界 中 运动 变化 的 数学 模型 ,多 是 一 种 (组 ) 或 若干 种 
(组 ) 复 杂 方 程 的 数值 求解 。 科 学 计算 型 应 用 中 的 任务 分 解 往往 由 人 为 主观 决定 ,因此 模 
型 的 设计 要 更 多 考虑 软件 机 制 及 其 与 底层 硬件 平台 的 结合 情况 。 

从 本 质 上 讲 , 云 计算 、 网 格 计算 等 实际 上 都 是 分 布 式 计算 ,二 者 的 目标 都 是 为 公众 提 
供 计算 能 力 的 基础 设施 ,这 里 所 提 到 的 计算 能 力 , 实 际 上 具有 比 科学 计算 更 广泛 的 含义 。 
科学 计算 可 作为 云 计算 或 网 格 计 算 所 提供 的 服务 之 一 。 同 时 , 云 计算 或 网 格 计算 还 可 提 
供 科学 计算 之 外 的 服务 ,如 事务 处 理 \ 信 息 搜索 等 。 


1.1.3 来 自 应 用 领域 的 需求 


近年 来 软 硬 件 技术 的 飞速 发 展 ,使 得 科学 计算 越 来 越 成 为 科研 与 工业 创新 的 重要 手 
段 之 一 。 表 1-1 展示 了 2010 年 11 月 全 球 TOP500 计算 机 应 用 领域 的 统计 情况 。 可 以 看 
出 ,它们 几乎 涉及 到 社会 生活 的 各 个 主要 方面 ,不 仅 包含 基础 研究 领域 ,在 一 些 基础 工业 
领域 中 ,超级 计算 机 的 使 用 也 为 一 些 传统 产业 带 来 了 更 多 更 快 的 创新 机 会 。 


表 1-1 2010 年 11 月 全 球 TOPSO00 计算 机 应 用 领域 统计 (来 自 http://www. top500. org) 


应 用 领域 数量 比例 处 理 器 总 数 
空间 应 用 5 1.00% 31 936 
机 械 制 造 4 0. 80% 27 056 
测试 5 1.00% 50 528 
生物 1 0.20% 8640 
咨询 服务 1 0.20% 6768 
数据 库 2 0.40% 12 216 
防务 17 3.40% 307 296 
电力 1 0.20% 5320 
能 源 14 2.80% 114 092 
环境 1 0.20% 144 640 
金融 43 8.60% 267 864 
地 球 物理 19 3.80% 79 440 
硬件 设计 2 0.40% 12 744 
信息 服务 35 7.00% 222 348 
信息 处 理 8 1.60% 83 584 
生命 科学 1 0. 2026 18 176 
医药 3 0. 60% 20 000 
媒体 1 0. 20% 5936 
科研 82 16. 40% 2115 546 


软件 开发 5 1.00% 32 688 


a 


O Eno don 


续 表 
应 用 领域 数量 比例 处 理 器 总 数 
电信 12 2. 4096 80 428 
气候 变化 8 1.60% 159 204 
互联 网 服务 4 0. 80% 29 680 
天 气 预 报 2 0.40% 7040 
半导体 2 0.40% 11 352 
数字 媒体 2 0. 4026 9456 
娱乐 2 0.40% 10 672 
不 确定 应 用 170 34.00% 2 261 923 
零售 商业 4 0.80% 25 968 
服务 业 44 8.80% 309 786 
Totals 44 100% 6 472 327 


1.2 并 行 编程 模型 


在 高 性 能 计算 领域 ,软件 环境 与 硬件 平台 密切 相关 ,没有 一 个 通用 的 平台 适合 高 效 解 
决 所 有 种 类 的 问题 ,也 没有 一 种 软件 开发 模型 能 够 高 效 使 用 所 有 种 类 的 硬件 平台 ,对 应 用 
程序 而 言 亦 是 如 此 。 本 小 节 将 简要 介绍 并 行 编程 模型 。 值 得 注意 的 是 ,并 行 编程 模型 与 
硬件 平台 的 结构 密切 相关 。 

目前 ,在 计算 机 系统 上 进行 并 行 计算 ,编程 模型 主要 有 如 下 三 种 : 

。 适用 于 共享 内 存 的 多 线程 编程 模型 ; 

。 适用 于 分 布 内 存 的 消息 传递 编程 模型 ; 

to 混合 编程 模型 。 


1.2.1 适用 于 共享 内 存 的 多 线程 编程 模型 


(D 操作 系统 库 支持 的 多 线程 。 通 常情 况 下 ,都 是 使 用 库 函 数 将 应 用 程序 的 计算 核心 
在 独立 的 线程 中 进行 实施 。 现 代 操 作 系 统 都 支持 多 线程 共享 内 存 的 并 发 ,但 只 有 在 硬件 
的 支持 下 才能 实现 真正 的 并 行 , 可 能 的 硬件 环境 包括 : 

。 支持 超 线程 的 单 核 CPU (如 Intel Hyper-Threading 技术 的 Pentium 4 或 

Xeon 等 ); 

* £V CPU; 

* SMP 系统 ; 

。 上 述 三 者 的 组 合 。 

© 基于 OpenMP 的 多 线程 。OpenMP 定义 了 一 组 编译 指导 语句 、 运 行 时 库 与 环境 
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变量 来 影响 并 行程 序 的 行为 。 
1.2.2 适用 于 分 布 内 存 的 消息 传递 编程 模型 


消息 传递 模型 适合 分 布 式 共 享 内 存 环境 下 的 并 行 。 常 用 的 消息 传递 库 为 PVM 和 
MPI。 其 中 , MPI 已 被 移植 到 多 种 平台 上 运行 ,包括 Linux, Windows, MacOS 等 ,也 可 在 
SMP 系统 上 使 用 共享 内 存 进行 消息 传递 。 可 支持 分 布 式 环境 下 进程 之 间 的 点 对 点 通信 、 
单 向 通信 、 集 合 通信 等 。 


1.2.3 混合 编程 模型 


不 管 采用 何 种 编程 模型 ,最 终 都 要 解决 全 局 与 局 部 的 关系 。 随 着 系统 规模 和 计算 规 
模 越 来 越 大 ,任何 一 种 编程 模型 都 不 可 能 独立 适用 于 所 有 的 场合 ,因此 ,需要 考虑 使 用 混 
合 编程 模型 。 

目前 ,高 性 能 计算 系统 平台 的 规模 越 来 越 大 , 千 万 亿 次 计算 能 力 已 成 为 现实 ,系统 中 
集成 的 处 理 器 数量 也 已 达 10 万 个 以 上 ,而 且 同 一 处 理 器 内 各 个 核心 的 结构 也 彼此 不 同 。 
对 于 这 样 的 计算 机 系统 , 则 必须 采用 混合 编程 模型 。 即 将 消息 传递 编程 模型 与 多 线程 纺 
程 模 型 相 结合 ,实现 多 层次 、 可 扩展 的 并 行程 序 。 

不 管 采用 何 种 编程 模型 ,由 于 在 分 布 内 存 环 境 中 存 取 本 地 资源 要 快 于 存 取 远程 资源 ， 
因此 为 了 获得 高 的 执行 性 能 都 必须 解决 全 局 与 局 部 的 关系 。 即 在 程序 设计 之 初 ,就 要 充 
分 考虑 目标 平台 的 存储 层次 模型 与 网 络 拓扑 结构 ,尽量 将 运行 过 程 中 动态 的 数据 存 取 操 
作 限 制 在 结 点 /处 理 器 /CPU 核心 的 “本 地 ”, 让 最 近 即 将 使 用 的 数据 尽量 填充 在 最 接近 
CPU 核心 的 存储 器 上 ,同时 在 次 级 存储 器 上 将 以 后 可 能 用 到 的 数据 准备 就 绪 。 


1.3. 并 行程 序 设计 的 基本 思想 


计算 技术 本 身 也 是 一 个 研究 领域 , 它 涉及 计算 数学 、 计 算 机 系统 结构 、 计 算 机 软件 以 
及 各 应 用 领域 的 相关 知识 。 对 各 专业 应 用 领域 的 研究 /开发 而 言 ,计算 技术 作为 一 种 工具 
来 使 用 。 因 此 ,更 应 关注 如 何 将 本 领域 的 计算 模型 转换 为 并 行 计算 程序 ,所 得 到 的 计算 软 
件 应 具备 高 性 能 、 良 好 的 规模 可 扩展 性 等 特征 。 其 中 ,规模 可 扩展 性 包括 解决 本 领域 计算 
问题 本 身 的 规模 可 扩展 性 与 计算 平台 规模 的 可 扩展 性 这 两 层 含义 。 

在 大 规模 并 行 计算 领域 .没有 完全 意义 下 的 通用 平台 和 通用 软件 ,总 是 存在 某 种 平台 
擅长 某 种 类 型 的 计算 , 某 种 应 用 程序 在 特定 平台 上 才能 获得 最 佳 的 效率 。 因 此 ,开发 并 行 
应 用 程序 ,关键 要 做 好 如 下 三 个 阶段 的 工作 : 

t 理解 用 于 计算 的 硬件 平台 结构 ,包括 处 理 器 体系 结构 多 核心 的 连接 结构 .内存 层 

次 结构 、 网 络 拓扑 结构 .I/O 系统 结构 等 内 容 ; 
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t 在 理解 所 用 硬件 平台 结构 的 基础 上 ,理解 系统 软件 提供 的 功能 ,并 据 此 选择 相应 
的 编程 模型 

。 寻找 合适 的 工具 /中 间 件 来 构建 并 行 算法 ,最 终 实现 并 行 应 用 程序 。 

构建 并 行 应 用 程序 ,还 应 遵循 如 下 几 个 原则 。 


1. 发 掘 并 行 性 


从 问题 本 身 的 特点 出 发 , 找 出 计算 过 程 中 可 被 并 行 执行 的 关键 部 分 。 有 些 问 题 天 生 
具有 良好 的 并 行 性 ,比如 待 处 理 数据 集合 可 被 划分 为 若干 个 互 不 耦合 的 空间 (例如 ,石油 
勘探 领域 中 的 许多 地 震 资 料 处 理 技术 都 具有 这 样 的 属性 ) ,从 而 便于 进行 并 行 计算 。 但 有 
些 问题 却 没有 明显 的 可 并 行 特 征 , 此 时 需要 对 求解 这 些 问 题 的 算法 进行 必要 的 改造 以 创 
造 并 行 性 。 比 较 常 用 的 办 法 有 : 

。 计算 分 解法 , 即 通过 公式 推导 与 改造 将 原 有 的 计算 过 程 分 解 为 若干 个 分 步 , 减 弱 

各 分 步 之 间 的 数据 耦合 ,从 而 可 在 一 定 程 度 上 (如 采取 流水 线 方式 ) 进 行 并 行 
执行 ， 

。 循环 调整 法 , 即 通 过 调整 算法 内 的 多 重 循环 来 改变 计算 的 顺序 与 数据 依赖 性 ,从 

而 使 得 部 分 计算 任务 可 并 行 执行 。 


2. 保持 高 性 能 


一 个 将 在 并 行 计算 机 上 计算 的 任务 ,必然 会 被 分 解 一 一 不 论 是 按照 数据 划分 方式 还 
是 任务 划分 方式 一 一 最 终 需 要 跨 结 点 分 布 的 处 理 器 与 内 存 空间 协调 起 来 共同 完成 。 任 务 
被 分 解 之 后 形成 在 具体 处 理 器 / 结 点 上 运行 的 模块 ,从 本 地 结 点 上 看 每 个 模块 独立 运行 ， 
但 从 问题 整体 来 看 ,各 结 点 上 运行 的 模块 需要 相互 协调 。 这 要 求 在 编写 并 行 应 用 程序 时 ， 
针对 每 个 变量 、 每 段 计算 代码 ,都 要 同时 保持 两 种 身份 一 一 局 部 和 整体 ,所 谓 “ 既 见 树木 又 
见 森林 ”。 局 部 模块 要 运行 得 尽量 快 , 同 时 其 作为 全 局 的 一 部 分 ,要 兼顾 与 其 他 模块 的 
协调 。 

一 旦 涉及 到 模块 之 间 的 协调 ,就 会 发 生 本 地 和 远程 的 关系 。 在 计算 系统 中 ,处 理 器 永 
远 都 是 访问 离 自己 最 近 的 存储 空间 时 速度 最 快 ,处 理 器 访问 速度 从 快 到 慢 的 顺序 依次 为 
L1 cache>L2 cache 习 本 地 结 点 内 存 习 远程 结 点 内 存 和 /或 磁盘 ,这 个 存储 层次 的 容量 则 
恰好 相反 。 因 此 ,在 组 织 数据 时 ,并行 应 用 程序 需要 精心 安排 数据 在 存储 层次 上 的 分 布 ， 
以 取得 各 级 存储 的 高 效 利 用 。 特 别 是 涉及 多 核 等 共享 缓存 /内 存 的 情况 时 ,数据 的 存储 分 
配 策略 将 对 并 行 应 用 程序 的 执行 性 能 产生 更 大 的 影响 。 

此 外 ,大 规模 数值 计算 程序 往往 都 涉及 大 量 的 迭代 过 程 ,一 个 细微 之 处 的 时 间 消 耗 都 
可 能 会 被 放大 到 和 迭代 次 数 倍 。 因 此 ,要 针对 目标 平台 的 体系 结构 细节 来 精心 优化 高 阶 循 
环 内 部 的 代码 。 


第 1 章 ， 并 行 计算 基础 


最 后 ,数据 局 部 性 访问 的 特点 决定 了 在 算法 设计 时 需要 尽量 减少 模块 之 间 的 耦合 , 即 
减少 计算 过 程 中 的 通信 次 数 及 其 通信 量 , 因 此 需要 对 通信 进行 改进 ,将 通信 与 计算 进行 重 
和 三。 特别 是 在 多 核 系统 中 ,可 利用 不 同 的 核心 分 别 完成 计算 与 通信 ,达到 更 佳 的 效果 。 在 
通信 时 ,还 需 注意 并 行 应 用 程序 中 的 通信 逻辑 拓扑 与 实际 系统 的 网 络 物理 拓扑 之 间 的 相 
互 匹 配 。 


3. 保持 良好 的 可 扩展 性 


可 扩展 性 一 方面 要 求 并 行 应 用 程序 本 身 能 够 对 领域 内 各 种 规模 的 问题 进行 计算 , 另 
一 方面 也 要 求 能 够 随 着 计算 平台 规模 的 扩大 而 相应 获得 理想 的 加 速 比 ,这 二 者 之 间 有 一 
定 的 关联 ,因此 需要 综合 考虑 。 

需要 避免 计算 过 程 中 可 能 出 现 的 瓶颈 ,比如 任务 划分 要 充分 考虑 负载 均衡 特别 是 动 
态 负载 平衡 “对 等 思想 是 维护 负载 均衡 和 保持 可 扩展 性 的 关键 之 一 。 所 谓 “ 对 等 就 是 
在 算法 设计 时 尽量 避免 使 用 Master/Slave 和 Client/Server 等 模式 ,这 些 工 作 模式 往往 容 
易 在 Master 和 Server 等 处 形成 性 能 瓶颈 。 设 计 * 对 等 "任务 分 解 的 关键 是 发 掘 问题 的 同 
构 性 质 , 从 人 迪 辑 上 和 物理 上 人 为 界定 边界 ,使 得 各 处 理 器 的 工作 地 位 完全 同等 。 


GRAM 


首先 ,简要 介绍 了 并 行 计算 的 背景 ,以 现实 世界 中 的 组 织 结构 与 科学 计算 两 个 实例 来 
逆 述 在 现实 世界 中 存在 的 天 然 并 行 性 以 及 并 行 过 程 。 然 后 ,对 并 发 计算 、 并 行 计算 、 分 布 
式 计 算 等 基本 概念 进行 了 简单 说 明 。 通 过 TOP500 发 布 的 计算 机 应 用 领域 统计 数据 , 展 
示 并 行 计算 的 应 用 需求 。 最 后 ,介绍 了 并 行 编程 模型 与 并 行程 序 设 计 的 基本 思想 。 本 章 
可 使 读者 初步 了 解 并 行 计算 的 基本 知识 。 
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2.1 并 行 计 算 机 传统 体系 结构 


并 行 计算 机 是 相对 于 串 行 计算 机 而 言 的 。 在 功能 上 ,并行 计算 机 比 串 行 计算 机 更 加 
强大 ; 在 设计 方法 和 体系 结构 上 ,并 行 计算 机 比 串 行 计算 机 更 加 复杂 ,需要 考虑 更 多 的 问 
题 。 学 习 高 性 能 计算 编程 必须 对 并 行 计算 机 的 体系 结构 有 一 定 的 认识 。 

Flynn 分 类 法 中 的 SIMD 与 MIMD 计算 机 都 属于 并 行 计算 机 。 其 中 ,MIMD 计算 机 
是 并 行 计 算 机 的 主流 和 发 展 方向 。 本 节 将 着 重 介 绍 几 类 最 重要 的 MIMD 计算 机 的 体系 
结构 。 


2.1.1 共享 存储 与 分 布 存储 


不 同类 型 的 并 行 计算 机 实现 多 机 并 行 工作 的 方式 不 同 。 其 中 ,按照 通信 方式 来 划分 ， 
采用 共享 公共 存储 器 中 数据 的 方式 来 实现 通信 的 并 行 计算 机 称 为 多 处 理 机 
(multiprocessors), 通 过 消息 传递 的 方式 来 实现 通信 的 并 行 计算 机 称 为 多 计算 机 
(multicomputers)。 与 之 相对 应 ,按照 组 织 结构 和 存储 方式 来 划分 ,可 将 并 行 计算 机 分 为 
两 种 基本 的 类 型 : 共享 存储 多 处 理 机 系统 和 分 布 存储 多 计算 机 系统 。 

共享 存储 就 是 具有 所 有 处 理 器 都 能 访问 的 物理 内 存 , 地 址 空间 统一 进行 编码 ,各 处 理 
机 采用 读 写 内 存 中 共享 数据 的 方式 进行 交互 的 结构 模型 。 在 存储 器 硬件 结构 的 实现 方法 
上 ,又 可 将 其 分 为 集中 式 共享 存储 器 和 分 布 式 共享 存储 器 两 种 ,前 者 由 单一 的 存储 器 构 
成 ,后 者 由 统一 地 址 空间 编码 的 多 个 存储 器 构成 。 共 享 存储 的 多 处 理 机 是 一 种 紧 看 合 型 
的 系统 ,其 优点 在 于 通信 机 制 简单 ,使 得 程序 开发 更 加 简便 ,可 移植 性 更 好 。 但 是 ,由 于 共 
享 访问 存储 介质 ,处 理 器 的 访 存 过 程 需 要 经 历 竞争 和 延迟 ,这 将 在 一 定 程 度 上 制约 共享 存 
储 多 处 理 机 的 速度 。 

分 布 存 储 是 多 个 处 理 机 拥有 自己 独立 的 存储 器 ,彼此 之 间 不 共享 ,处 理 机 之 间 通 过 互 
联网 络 连接 ,以 消息 传递 的 方式 实现 通信 的 结构 模型 。 分 布 存储 多 计算 机 系统 可 以 采用 
松 耦 合 的 连接 方式 ,灵活 性 比较 好 ,可 扩展 性 好 ,能够 完成 大 计算 量 的 任务 ,同时 访 存 压 力 
比较 小 。 但 是 ,分布 存储 多 计算 机 系统 的 结构 比较 复杂 ,通信 和 负载 均衡 都 需要 程序 开发 
者 来 安排 ,因此 ,在 其 上 进行 程序 设计 的 难度 比较 高 。 

一 般 来 说 ,共享 存储 的 多 处 理 机 优势 为 程序 开发 简单 ,一 致 性 较 好 ; 分 布 存储 多 计算 
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机 系统 优势 为 可 扩展 性 好 ,性 能 较 高 。 对 于 应 用 人 员 和 系统 设计 人 员 来 说 ,应 根据 自己 的 
需求 特点 来 选择 合适 的 计算 机 体系 结构 。 


2.1.2 并 行 计算 机 传统 体系 结构 的 发 展 


20 世纪 60 年 代 , 随 着 计算 机 硬件 技术 的 发 展 和 应 用 需求 的 不 断 增 长 ,开始 出 现 并 行 
计算 机 的 萌芽 。20 世纪 60 年 代 初 出 现 的 CDC6600 就 采用 了 双 CPU 连接 多 个 外 部 处 理 
器 的 结构 , 它 已 具备 了 并 行 计算 机 的 硬件 特点 。20 世纪 60 年 代 后 期 开始 出 现 的 指令 级 
流水 工作 方法 进一步 推动 了 并 行 计算 机 的 出 现 。 

1972 年 ,Tllinois 大 学 和 Burroughs 公司 联合 研制 出 世界 上 第 一 台 真 正 意义 的 并 行 计 
算 机 ILLIAC IV, 它 是 一 台 具有 32 个 处 理 单元 的 SIMD 类 型 的 计算 机 ,采用 环 状 连接 拓 
扑 结构 ,用 于 流体 力学 方面 的 运算 , 迈 出 了 并 行 计算 机 研制 的 第 一 步 。20 世纪 70 年 代 诞 
生 的 并 行 机 还 有 阵列 机 ICLDAP、Goodyear MPP 以 及 向 量 机 CRAY-1、STAR-100 等 , 它 
们 都 属于 SIMD 类 型 的 计算 机 。 其 中 ,向 量 机 CRAY-1 获得 了 很 好 的 向 量 计 算 效 果 。 从 
20 世纪 70 年 代 开始 ,并 行 计算 机 逐渐 引起 人 们 的 极 大 兴趣 ,吸引 了 大 量 的 专家 学 者 致力 
于 并 行 计算 机 的 研制 和 并 行程 序 的 设计 ,为 20 世纪 80 年 代 并 行 计算 机 的 蓬勃 发 展商 定 
了 坚实 的 基础 。 

20 世纪 80 年 代 早 期 ,以 MIMD 计算 机 的 研制 为 主 。 首 先 诞生 的 是 Denelcor HEP. 
EH 16 台 处 理 机 ,采用 共享 存储 的 方式 ,能 同时 支持 细 粒 度 和 粗 粒 度 并 行 ,并 被 应 用 于 实 
际 的 计算 中 ,使 得 许多 人 学 会 了 并 行 计 算 。 其 次 ,诞生 了 共享 存储 向 量 多 处 理 机 CRAY 
X-MP/22(2 个 结 点 ) 与 IBM 3090€6 个 结 点 ) ,它们 都 取得 了 很 好 的 实际 并 行 计算 性 能 。 
同时 ,以 超 立 方 体 结构 连接 的 分 布 式 存储 MIMD 原型 机 开始 出 现 。 

20 世纪 80 年 代 中 期 ,共享 存储 多 处 理 机 系统 得 到 了 稳定 发 展 。 两 台 成 功 的 机 器 为 
Sequent(20 个 结 点 ) 与 Encore(16—32 个 结 点 ) ,它们 提供 稳定 的 UNIX 操作 系统 ,实现 
用 户 之 间 的 分 时 共享 ,对 当时 的 VAX 系列 串 行 机 构成 了 严重 的 威胁 。 同 时 ,还 诞生 了 8 
个 结 点 的 向 量 多 处 理 机 Alliant( 它 提供 较 强 的 自动 向 量 并 行 编译 技术 ) 与 4 个 结 点 的 向 
量 多 处 理 机 CRAY-2。 这 些 向 量 多 处 理 机 系统 在 实际 应 用 中 均 取 得 了 巨大 的 成 功 。 与 此 
同时 ,人 们 对 共享 存储 多 处 理 机 系统 的 内 存 访 问 瓶 颈 问题 有 了 比较 清醒 的 认识 ,纷纷 寻求 
解决 办 法 以 确保 它们 的 可 扩展 性 。 在 此 期 间 , 还 诞生 了 可 扩展 的 分 布 存储 MIMD MPP n 
立方 体 (nCUBE) ,该 机 器 有 1024 个 结 点 ,CPU 和 存储 单元 均 分 别 包含 在 结 点 内 ,所 有 结 
点 之 间 通 过 超 立 方 体 网 络 进行 相互 连接 ,支持 消息 传递 的 并 行 编程 环境 ,并 被 投入 实际 的 
应 用 中 。 由 于 该 机 对 流体 力学 中 的 几 个 实际 应 用 问题 获得 了 超过 1000 倍 的 并 行 加 速 比 ， 
引起 了 计算 机 界 的 稻 动 ,改变 了 人 们 对 Amdahl 定律 的 认识 ,打消 了 人 们 对 并 行 计 算 技术 
的 疑虑 。 当 时 ,在 分 布 存储 体系 结构 中 ,处 理 机 之 间 的 消息 传递 效率 与 消息 的 长 度 . 处 理 
机 之 间 的 距离 有 着 较 大 的 关系 。 因 此 ,在 互联 网 络 最 优 拓扑 连接 和 数据 包 路 由 选择 算法 
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等 方面 的 研究 引起 了 人 们 的 大 量 关注 ,其 目的 在 于 减少 处 理 机 远 端 访问 的 开销 。 

20 世纪 80 年 代 后 期 ,真正 具有 强大 计算 能 力 的 并 行 计 算 机 开始 出 现 。 例 如 ,Meiko 
系统 ,由 400 个 T800 Transputer 通过 二 维 网 格 (Mesh) 相 互 连 接 构成 ,适合 中 粒度 的 并 
行 。 又 如 ,CM-2、MasPar 与 DAP 这 三 台 SIMD 并 行 计算 机 。 其 中 ,CM-2 的 Linpack W 
试 获得 了 5. 2GFLOPS 的 性 能 。 通 过 超 立 方 体 (SuperCUBE) 连 接 的 分 布 存储 MIMD 并 
行 计算 机 nCUBE-2 与 Intel iPSC/860 ,可 分 别 扩展 至 8000 个 结 点 和 128 个 结 点 ,峰值 性 
能 分 别 达到 27GFLOPS 5j 7GFLOPS。 由 硬件 支持 共享 存储 机 制 的 BBN TC2000 ,使 用 
Butterfly 多 级 互联 网 连接 处 理 机 和 存储 模块 ,可 扩展 至 500 台 处 理 机 ,本 地 cache, PI f£ 
和 远 端 内 存 访问 的 延迟 时 间 比 例 为 1 : 3 : 7。 共 享 存储 向 量 多 处 理 机 系统 CRAY 
Y-MP ,能够 获得 很 好 的 实际 运算 性 能 。 

20 世纪 90 年 代 , 得 益 于 微 电 子 技术 的 发 展 ,基于 RISC 指令 系统 的 微 处 理 蕊 片 几乎 
以 性 能 每 18 个 月 增长 1 倍 、 内 存 容量 每 年 增长 1 倍 的 速度 发 展 。 同 时 ,网 络 通信 技术 也 
得 到 了 快速 增长 ,它们 对 并 行 计算 机 的 发 展 均 产生 了 重要 的 影响 。 在 这 个 时 期 , MIMD 
类 型 的 计算 机 占据 了 绝对 的 主导 地 位 ,用 于 科学 与 工程 计算 的 SIMD 类 型 的 计算 机 和 单 
纯 的 向 量 机 已 逐渐 退出 历史 舞台 。 考 虑 到 共享 存储 并 行 机 不 可 避免 的 内 存 访问 瓶颈 问 
题 , 人 们 纷纷 把 目光 转移 到 分 布 式 存储 MPP 系统 ,使 得 MPP 的 硬件 和 软件 系统 得 到 了 
长 足 的 发 展 。 由 于 微 处 理 芯 片 性 能 和 网 络 技术 的 发 展 ,MPP 并 行 机 大 量 采用 商用 微 处 理 
芯片 作为 单 结 点 ,通过 高 性 能 的 互联 网 连接 而 成 。 由 于 普遍 采用 虫 孔 (wormhole) 路 由 选 
择 算 法 ,使 得 消息 传递 时 间 不 再 与 它 所 经 过 的 结 点 数目 相关 , 即 处 理 机 之 间 的 消息 传递 开 
销 不 再 与 距离 有 关 ,或 者 相关 的 程度 可 以 忽略 不 计 , 互 联网 的 拓扑 结构 趋 于 统一 。 分 布 式 
存储 并 行程 序 设计 以 消息 传递 为 主 ,少量 的 也 支持 数据 并 行 ,比如 高 性 能 Fortran 
(HPF)。 在 该 时 期 ,为 了 让 共享 存储 并 行 机 具有 可 扩展 性 以 适用 于 高 性 能 计算 ,并 继承 
共享 存储 并 行 机 易于 并 行程 序 设 计 的 优点 ,分 布 共享 存储 的 思想 已 被 人 们 广泛 接受 。 这 
方面 的 代表 机 型 为 1991 年 生产 的 Kendall Square KSR-1, 它 提供 给 用 户 透明 的 共享 存储 
结构 ,每 个 环 含有 32 个 结 点 ,多 个 环 之 间 以 层次 结构 相互 连接 ,可 扩展 至 1024 个 结 点 , 峰 
值 速度 为 15GFLOPS。 

20 世纪 90 年 代 中 期 , 微 处 理 器 的 性 能 已 非常 强大 ,能 够 提供 每 秒 几 亿 到 十 几 亿 次 的 
浮 点 运算 速度 。 同 时 ,互联 网 的 点 对 点 通信 能 力 已 达到 每 秒 超过 500MB 的 带宽 。 高 性 
能 微 处 理 器 和 网 络 通信 技术 为 并 行 计算 硬件 环境 带 来 了 新 的 面貌 ,使 它们 呈现 出 如 下 发 
RS. 

。 以 高 性 能 微 处 理 芯 片 和 互联 网 通信 技术 为 基础 ,共享 存储 对 称 多 处 理 机 (SMP) 系 

统 得 到 了 迅速 发 展 。 它 们 大 多 以 高 性 能 服务 器 的 方式 出 现 ,能 提供 每 秒 几 百 亿 次 
的 浮 点 运算 能 力 、 几 十 GB 的 内 存 和 超过 10GB/s 的 访 存 带宽 。 具 有 丰富 的 系统 
软件 和 应 用 软件 ,很 强 的 容错 能 力 `IVO 能力、 吞吐 量 、 分 时 共享 能 力 和 稳定 性 , 友 
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好 的 共享 存储 并 行程 序 设计 方式 ,易于 使 用 的 并 行 调试 与 性 能 分 析 工 具 , 为 大 量 
中 小 规模 科学 与 工程 计算 、 事 务 处 理 、 数 据 库 管理 部 门 所 欢迎 。 因 此 ,它们 一 出 
现 , 就 迅速 抢占 了 原本 属于 共享 存储 向 量 并 行 机 的 市 场 ,成 为 几 百 亿 次 以 下 并 行 
计算 机 的 主导 机 型 。 但 是 ,它们 仍然 存在 可 扩展 性 较 差 的 缺陷 ,不 能 满足 超大 规 
模 并 行 计算 的 要 求 。 
以 微 处 理 芯片 为 核心 的 工作 站 能 提供 近 1GFLOPS 的 计算 速度 与 几 十 MB 的 内 
存 , 能 单独 承担 一 定 的 计算 任务 。 将 多 台 这 样 的 同 构 或 异 构 型 工作 站 通过 高 速 局 
域 网 相互 连接 起 来 ,再 配备 一 定 的 并 行 支撑 软件 ,形成 一 个 松 耦合 的 .协同 地 并 行 
求解 同一 个 问题 的 并 行 计算 环境 , 称 之 为 机 群 系统 。 由 于 机 群 系统 具有 投资 风险 
小 、 结 构 灵 活 、 可 扩展 性 强 、 软 件 财富 可 继承 .通用 性 好 、 异 构 能 力 强 等 较 多 优点 而 
被 大 量 的 中 、 小 型 计算 用 户 和 科研 院 校 所 接受 ,成 为 高 性 能 计算 领域 的 一 个 新 的 
发 展 热点 ,占据 了 原本 属于 传统 并 行 计算 机 的 部 分 市 场 。 但 是 ,它们 仍然 具有 结 
构 不 稳定 并行 支撑 软件 较 少 .并 行 开销 大 .通信 带宽 低 、 负 载 不 均衡 和 并 行程 序 
设计 难 等 许多 吸 待 解决 的 问题 ,在 当时 吸引 了 大 量 国内 外 专家 学 者 的 注意 力 。 
由 于 分 布 存储 的 并 行 计算 机 具有 并 行程 序 设 计 难 、 不 易 被 用 户 接受 的 缺点 ,单纯 
的 分 布 存 储 并 行 机 已 经 朝 着 分 布 共享 多 处 理 机 (DSM) 方 向 发 展 。 它 们 都 采用 最 
先进 的 微 处 理 蕊 片 作 为 处 理 单元 ,单元 内 配备 有 和 较 大 的 局 部 cache 和 局 部 内 存 ， 
所 有 局 部 内 存 都 能 实现 全 局 共享 ,所 有 结 点 通过 高 性 能 网 络 相互 连 接 , 用 户 可 以 
采用 共享 存储 或 数据 并 行 的 并 行程 序 设 计 方 式 ,并 且 可 自由 地 申请 结 点 数目 和 内 
存 大 小 。 

2000 年 以 来 , 受 大 规模 计算 (如 天 气 预报 石油 勘探 ) 需 求 的 牵引 以 及 微 处 理 器 和 商 
用 高 速 互联 网 持续 发 展 的 影响 ,高 性 能 并 行 计算 机 得 到 前 所 未 有 的 发 展 。SMP 、DSM 机 
群 等 各 类 并 行 计算 机 都 得 到 了 长 足 的 进步 。 在 低 端 市 场 上 ,SMP 以 其 良好 的 性 价 比 逐渐 
替代 了 MPP。 在 大 型 机 领域 ,机 群 系统 则 以 其 结构 灵活 、 通 用 性 好 、 异 构 能 力 强 等 诸多 优 
点 逐渐 代替 MPP 成 为 主流 。 并 且 , 随 着 网 络 技术 的 发 展 ,机 群 系统 与 MPP 系统 之 间 的 
界限 变 得 越 来 越 模糊 。 例 如 ,IBM 公司 的 SP2 系统 既 看 成 是 MPP, 又 可 看 作 是 机 群 系 
统 。 这 体现 了 新 世纪 以 来 高 性 能 计算 机 领域 中 体系 结构 更 加 灵活 、 逐 渐 融 合 的 趋势 。 在 
2001 年 的 全 球 高 性 能 计算 机 Top500 排名 中 ,MPP 有 314 f ,机 群 系统 只 有 32 台 。 但 到 
T 2010 年 ,在 Top500 排名 中 ,MPP 只 有 74 fs ,而 机 群 系统 则 达到 了 424 台 。 这 说 明 机 
群 系统 已 成 为 大 规模 并 行 计算 机 系统 的 主要 架构 模式 ,而 MPP 正 慢 慢 误 落 。 

传统 并 行 计算 机 的 历史 发 展 如 图 2-1 所 示 。 

总 的 来 说 ,SMP、DSM、MPP 机群 系统 这 四 种 类 型 的 计算 机 是 最 近 20 年 中 并 行 计算 
机 的 主要 类 型 ,也 是 最 经 典 的 并 行 计算 机 体系 结构 模式 。 下 面 , 将 分 别 介 绍 这 四 类 并 行 计 
算 机 。 


2010 年 


全 球 高 性 能 计算 机 Top500 榜 单 中 ， 机 群 系统 已 经 占 到 80% 以 上 


新 世纪 以 来 ， 机 群 系统 快速 发 展 ，MPP 系 统 逐 渐 衰落 


Origin 2000 系 列 机 型 开始 出 现 SMP 、DSM 、MPP 和 机 群 系统 的 融合 


2000 年 


1997 年 ，SGI Cray 公 司 的 T3E900 达 到 万 亿 次 运算 速度 ， 成 为 高 端 MPP 代 表 


1994 年 出 现 第 一 个 机 群 系统 NASA 的 Beowulf 机 群 


1994 年 ,SMP 迅 速 占领 小 型 并 行 计算 机 市 场 


1992 年 出 现 第 一 个 真正 意义 的 DSM 系 统 Stanford DASH 


1990 年 


20 世 纪 80 年 代 后 期 ， 开 始 出 现 少量 的 SMP 类 型 的 多 处 理 机 


1985 年 ,第 一 台 采 用 分 布 存储 的 MPP PCUBE 诞 生 


1982 年 ,第 一 台 商用 MIMD 类 型 共享 存储 并 行 计 算 机 Denelcor HEP 诞 生 


1980 年 


976 年 ，SIMD 类 型 向 量 机 CRAY-1 取 得 巨大 成 功 
这 一 年 称 为 "超级 计算 元 年 ” 


1972 年 ,第 一 台 SIMD 类 型 的 并 行 计算 机 ILIAC IV 诞 生 


1970 年 


20 世 纪 60 年 代 开 始 出 现 并 行 计 算 机 的 萌芽 


图 2-1 并 行 计 算 机 发 展 历史 图 
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2.1.3 SMP 对 称 式 共享 存储 器 多 处 理 机 
1. 简介 


对 称 多 处 理 机 (Symmetric Shared-memory Mnultiprocessor,SMP) 是 一 类 常见 的 共享 
存储 并 行 计算 机 系统 。 一 般 来 说 , 它 的 处 理 器 数量 比较 少 ,各 处 理 器 共享 一 个 集中 式 的 物 
理 存 储 器 ,各 处 理 器 的 关系 是 对 称 的 。 在 20 世纪 80 年 代 , 随 着 cache 技术 的 发 展 , 单 个 
处 理 器 对 内 存 带 宽 的 要 求 降低 ,人 们 开始 设计 通过 总 线 来 共享 一 个 单独 的 物理 存储 器 的 
小 规模 多 处 理 机 系统 , 即 对 称 多 处 理 机 (SMP)。 到 20 世纪 90 年 代 中 期 ,SMP 已 经 成 为 


一 种 主流 的 并 行 计算 机 。 其 基本 结构 如 图 2-2 所 示 


2. 特点 (v) e 


SMP 系统 具有 如 下 特点 : 


。 对 称 性 ,系统 中 各 个 处 理 器 的 结构 相同 ,可 E | | ee 


U2) (CPU3) (CPU4 
he he 


cac 


cache 


以 对 称 访问 任意 存储 器 和 1/O 设备 ; 


。 共享 性 ,采用 共享 存储 方式 ,所 有 存储 器 的 | | 

存储 单元 具有 统一 的 地 址 空间 编码 ; 存储 器 1/0 
。 低 延迟 ,由 于 采用 了 共享 存储 方式 ,处 理 机 

之 间 的 通信 均 由 简单 的 读 、 写 指令 来 完成 ， E22 SNP MNIM 


通信 延迟 比较 低 , 通 信 开 销 小 ; 


。 负载 均衡 ,只 有 一 个 OS 副本 驻 留 在 共享 存储 器 中 ,OS 根据 负载 进 


易于 达到 动态 负载 平衡 。 
SMP 系统 具有 一 定 的 局 限 性 ,主要 体现 在 两 个 方面 : 


行进 程 调度 ， 


。 可 扩展 性 较 差 ,一般 情况 下 SMP 系统 的 处 理 机 数目 在 8 一 16 个 之 间 , 很 难 扩展 到 
100 个 以 上 的 处 理 机 ,这 决定 了 SMP 无 法 用 于 需要 完成 巨大 工作 量 的 情况 ; 
* 可 用 性 较 差 ,所 有 处 理 机 共享 一 套 存储 器 和 操作 系统 ,一 旦 存储 器 或 者 操作 系统 


出 现 问题 ,整个 系统 都 将 瘫痪 。 


因此 SMP 适用 于 运算 规模 较 小 并 且 对 可 用 性 要 求 较 低 的 情况 ,在 小 规模 并 行 计算 


机 市 场 上 它 具 有 较 高 的 性 价 比 。 
3. 关键 技术 


SMP 系统 要 解决 的 一 个 主要 技术 问题 就 是 cache 一 致 性 问题 ,造成 cache 一 致 性 问 


题 的 原因 有 以 下 几 点 : 
* 由 共享 可 写 数据 造成 的 不 一 致 ; 
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* 由 绕 过 cache 的 1/O 操作 造成 的 不 一 致 ; 
。 由 进程 迁移 所 造成 的 不 一 致 。 
下 面 是 几 种 解决 cache 一 致 性 的 协议 和 策略 。 
1) 基于 监听 的 cache 一 致 性 协议 
基于 监听 的 cache 一 致 性 协议 的 基本 原理 是 : 当 某 个 cache 需要 访问 存储 器 时 , 它 会 
把 请 求 放 到 总 线 上 广播 出 去 ,其 他 cache 控制 器 通过 监听 总 线 来 判断 它们 是 否 有 总 线 上 
请 求 的 数据 块 ,如 果 有 则 进行 相应 的 操作 。 
通常 使 用 写 无 效 和 写 更 新 这 两 种 策略 来 解决 cache 一 致 性 问题 。 
。 写 无 效 策略 (write invalidate): 是 指 当 某 个 处 理 器 更 新 其 私有 cache 中 的 某 个 数 
据 时 , 它 通知 所 有 其 他 cache 该 数据 在 它们 中 的 副本 从 此 均 无 效 , 这 样 就 可 以 避 
免 其 他 “过 时 ”的 副本 被 使 用 而 造成 错误 。 

。 写 更 新 策略 (write update) : 是 指 当 某 个 处 理 器 更 新 其 私有 cache 中 的 某 个 数据 
时 , 它 把 所 更 新 的 数据 发 送 给 所 有 其 他 cache, 以 更 新 这 一 数据 在 其 他 cache 中 的 
所 有 副本 。 

一 般 来 说 ,使 用 写 更 新 策略 ,需要 传输 更 新 后 的 数据 ,而 写 无 效 只 需 传输 写 无 效 信 息 。 
因此 , 写 更 新 传输 的 数据 量 比 写 无 效 要 大 ,而 且 , 被 更 新 数据 的 某 些 副本 以 后 也 不 一 定 会 
被 再 次 使 用 。 

这 里 需要 注意 的 是 , 写 无 效 和 写 更 新 是 维护 处 理 器 与 cache 一 致 性 的 策略 , 它 与 维护 
cache 与 主 存储 器 一 致 性 的 策略 没有 必然 的 关系 。SMP 系统 还 需要 考虑 cache 与 主 存储 
器 的 一 致 性 。 维 护 cache 与 存储 器 的 一 致 性 有 如 下 方法 。 

。 写 回 法 : 当 CPU 写 cache 命中 时 ,只 修改 cache 的 内 容 , 而 不 立即 写 入 主 存 ; 只 有 
当 此 行 被 蔡 换 时 才 写 回 主 存 。 

写 直 达 : 又 称 全 写法 。 当 CPU 写 cache 命中 时 ,cache 与 主 存 同时 发 生 写 修改 , 因 
而 较 好 地 维护 了 cache 与 主 存 内 容 的 一 致 性 。 

写 一 次 法 : 是 写 回 法 与 写 直达 的 折 中 方法 。 当 CPU 写 cache 命中 与 未 命中 时 ,处 
理 方 法 与 写 回 法 基本 相同 ,只 是 第 一 次 写 cache 命中 时 要 同时 写 入 主 存 。 这 是 因 
为 ,第 一 次 写 cache 时 ,CPU 要 在 总 线 上 启动 一 个 存储 写 周 期 ,其 他 cache 监听 到 
此 主 存 块 地 址 及 写 信号 后 , 即 可 拷贝 该 块 或 及 时 作废 ,以 便 维 护 系统 全 部 cache 
的 一 致 性 。 

在 实际 操作 过 程 中 ,需要 从 上 述 两 套 方法 中 各 取 一 种 来 实现 cache 的 一 致 性 。 例 如 ， 
采用 写 无 效 策 略 和 写 直达 策略 (如 图 2-3 所 示 )。 处 理 器 A,B,C 的 cache 中 都 有 数据 m 
的 副本 (如 图 2-3(a) 所 示 )。 当 处 理 器 A 修改 私有 cache 中 mm 时 ,不 但 要 向 其 他 处 理 器 的 
cache 发 送 无 效 信息 ,而 且 要 将 共享 存储 器 中 该 数据 的 副本 更 新 。 最 终 , 处 理 器 A 的 私有 
cache 和 共享 存储 器 中 的 数据 m' 是 相同 而 且 是 正确 的 ,而 B 和 C 处 理 器 的 cache 中 该 数 
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据 的 副本 被 标记 为 无 效 ( 如 图 2-3(b) 所 示 )。 
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(a) 有 副本 (b) 副本 无 效 
图 2-3 写 无 效 与 写 直达 策略 实现 一 致 性 


2) 基于 目录 的 cache 一 致 性 协议 

基于 目录 的 cache 一 致 性 协议 的 基本 原理 是 : 使 用 cache 目录 来 存放 有 关 数 据 块 拷 
贝 驻 留 在 cache 中 的 信息 ,只 把 使 其 他 cache 数据 块 无 效 的 一 致 性 命令 发 送 给 存放 有 相应 
数据 块 的 cache, 从 而 保证 cache 的 一 致 性 。 

根据 目录 结构 的 特点 ,可 将 基于 目录 的 cache 一 致 性 协议 分 为 : 基于 全 映射 (full- 

map) 目 录 的 cache 一 致 性 协议 、 基 于 有 限 (limited) 目 录 的 cache 一 致 性 协议 和 基于 链 式 
(chained) 目 录 的 cache 一 致 性 协议 。 

。 全 映射 目录 : 每 一 个 目录 项 都 包含 一 个 N 位 的 位 向 量 , 其 中 的 每 一 位 对 应 一 台 处 
理 机 。 其 特点 是 处 理 比较 简单 ,速度 比较 快 。 但 是 ,存储 开销 很 大 ,可 扩展 性 
较 差 。 

。 有 限 目 录 : 是 对 全 映像 目录 的 改进 。 采 用 位 数 固定 的 目录 项 ,通过 限制 同一 数据 
所 在 cache 中 的 副本 总 数 来 实现 。 它 克服 了 全 映射 目录 的 不 足 , 但 其 缺点 也 非常 
明显 ,就 是 当 同一 数据 的 实际 副本 数目 大 于 限量 时 ,必须 进行 特殊 的 处 理 。 

* 链 式 目录 : 是 用 一 个 目录 指针 链表 来 表示 共享 集合 。 这 样 就 能 在 不 限制 同一 数 
据 所 在 cache 中 的 副本 数目 的 情况 下 保持 可 扩展 性 。 


4. 典型 实例 
下 面 以 原 Sun 公司 的 T1 系统 为 例 进 行 详细 介绍 。 
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T1J& 2005 年 发 布 的 一 款 作为 服务 器 的 多 处 理 机 。 它 采用 了 多 线程 与 多 核 技术 ,其 
线程 级 并 行 性 良好 ,吞吐 率 较 高 。 每 个 T1 多 处 理 机 有 8 个 处 理 器 ,每 个 处 理 器 最 多 支持 
4 个 线程 ,具有 一 条 6 段 单 流出 流水 线 。T1 处 理 器 主要 属性 如 表 2-1 所 示 。 


表 2-1 Tl 处 理 器 的 主要 属性 


机 型 Sun TI 

处 理 器 情况 8 个 相同 处 理 器 ,共享 一 个 浮 点 运算 部 件 

多 线程 支持 每 个 处 理 器 支持 4 线程 , 细 粒 度 线程 调度 

一 级 cache 16KB 指令 cache,8KB 数据 cache,64B 块 大 小 ,无 竞争 状态 下 不 命中 开 
销 23 个 时 钟 周期 

二 级 cache 4 个 独立 二 级 cache, 每 个 750KB, 与 存储 器 相连 ,64B 块 大 小 ,无 竞争 状 
态 下 ,不 命中 开销 110 个 时 钟 周期 

初始 版 本 工艺 90nm 工艺 ,最 高 时 钟 频率 1. 2GHz, 电 源 功率 79 W ,3 x 10* 个 晶体 管 ， 


圆 片面 积 379mmz 


T1 的 每 个 处 理 器 带 有 1 LI cache,8 个 处 理 器 通过 交叉 开关 与 4 个 L2 cache 相 
连 。 使 用 基于 目录 的 cache 一 致 性 协议 来 实现 L2 cache 一 致 性 ,其 目录 表 中 对 于 每 一 
个 L2 cache 块 都 有 对 应 的 项 。 通 过 把 每 个 L2 cache 与 1 个 存储 器 相连 ,Tl 实现 了 将 
目录 表 放 在 L2 cache 而 不 是 放 在 主 存 上 ,从 而 有 效 地 降低 了 访 存 开销 。L1 cache $% 
用 写 直 达 法 ,而 且 所 访问 的 数据 都 能 从 L2 cache 中 获得 。T1 处 理 器 的 结构 如 图 2-4 


所 示 。 
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图 2-4 T1 处 理 器 组 成 结构 图 


并 行 计 算 机 及 编程 基础 


2.1.4 DSM 分 布 共 享 存储 多 处 理 机 


1. 简介 


分 布 共 享 存 储 多 处 理 机 系统 (Distributed Shared-Memory,DSM) 是 一 种 物理 存储 器 
分 布 于 各 处 理 结 点 ,而 逻辑 地 址 空间 采用 统一 编 址 的 计算 机 。 

在 传统 的 共享 存储 器 多 处 理 机 系统 中 ,一 般 使 用 总 线 或 交叉 开关 来 连接 共享 存储 器 。 
然而 , 随 着 处 理 器 规模 的 扩大 和 访 存 次 数 的 增加 ,集中 式 的 存储 器 成 为 系统 的 瓶颈 。 在 这 
种 情况 下 ,提出 了 分 布 共享 存储 多 处 理 机 系统 DSM。DSM 就 是 在 硬件 上 实际 分 布 存储 
的 系统 上 人 逻辑 实现 共享 存储 的 模型 。 其 结构 如 图 2-5 所 示 。 


ca 


che cache cache 
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图 2-5 DSM 结构 图 


DSM 支持 统一 地 址 编程 空间 ,从 而 有 效 地 将 传统 的 共享 存储 多 处 理 机 系统 和 分 布 存 
储 多 计算 机 系统 的 优点 结合 起 来 , 兼 具 可 编程 性 好 和 可 扩展 性 高 的 优势 。 


2. 特点 


DSM 同时 具有 共享 存储 和 分 布 存 储 的 特征 ,因此 具有 很 多 二 者 的 优势 ,同时 又 避免 
了 二 者 的 一 些 弊 端 , 是 一 种 取长补短 的 系统 。 一 般 来 说 ,分 布 共 享 存 储 多 处 理 机 系统 
DSM 具有 如 下 特点 : 

* 通用 性 ,DSM 采用 单 地 址 编程 空间 ,减轻 了 程序 员 的 负担 ,具有 较 强 的 通用 性 ; 

。 可 扩展 性 ,DSM 的 物理 存储 器 分 布 在 不 同 的 位 置 ,这 使 得 系统 能 够 支持 更 多 的 存 
储 器 ,从 而 支持 更 大 规模 的 并 行 计 算 机 系统 ; 
虚拟 化 ,对 上 层 用 户 屏蔽 了 处 理 器 与 非 本 地 存储 器 之 间 的 网 络 连接 情况 ,提高 了 
系统 的 可 移植 性 ; 
访 存 时 间 受 互联 网 带宽 的 影响 较 大 ,如 果 处 理 器 访问 的 资源 存储 在 本 地 , 访 存 速 
度 较 快 ; 如 果 处 理 器 访问 的 资源 存储 在 其 他 位 置 , 访 存 速度 则 受 限于 网 络 带宽 。 
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3. 关键 技术 


共享 存储 系统 都 采用 cache 来 减少 由 共享 导致 的 冲突 和 延迟 对 性 能 的 影响 。 然 而 ， 
由 于 分 布 共 享 存储 系统 中 的 存储 器 是 分 散 的 ,不 同 处 理 器 访问 统一 存储 单元 将 会 有 不 同 
的 延迟 。 该 问题 称 为 非 一 致 访 存 问题 (Non-Uniform Memory Access. NUMA)。 同 时 ， 
DSM 系统 也 需要 解决 cache 一 致 性 问题 , 即 如 何 保证 同一 数据 单元 在 不 同 cache 中 的 备 
份 数据 的 一 致 性 。 

非 一 致 性 访 存 问 题 将 带 来 访 存 时 间 的 不 一 致 ,cache 一 致 性 问题 会 带 来 同一 数据 单 
元 的 多 个 备份 。 这 些 问 题 破坏 了 存储 访问 的 不 可 分 割 性 (atomicity) ,使 得 同一 数据 单元 
在 不 同时 刻 被 不 同 的 处 理 器 所 访问 ,从 而 影响 系统 的 正确 性 。 为 了 保证 正确 性 ,需要 对 访 
存 操作 的 发 生 次 序 进 行 严 格 的 限制 。 许 多 在 单 处 理 机 中 行 之 有 效 的 提高 性 能 的 技术 ( 诸 
如 , 预 取 、 多 发 射 等 ) 都 不 能 在 DSM 中 盲目 使 用 ,否则 会 影响 系统 的 性 能 。 可 见 , 分布 共 
享 存储 多 处 理 机 DSM 具有 独特 的 优势 ,同时 也 需要 面 对 一 些 新 的 问题 。 

一 般 来 说 ,根据 存储 器 的 组 织 方式 和 cache 一 致 性 的 实现 方法 等 特征 ,可 将 常见 的 分 
布 共享 存储 多 处 理 机 系统 分 为 如 下 几 类 ， 

CD 高 速 缓存 一 致 的 非 均匀 存储 访问 结构 CC-NUMA。 这 类 结构 的 共享 存储 器 分 布 
于 各 结 点 之 中 , 结 点 之 间 通 过 互联 网 相连 。 每 个 处 理 器 都 能 缓存 共享 单元 ,通常 采用 基于 
目录 的 方法 来 维护 处 理 器 之 间 的 cache 一 致 性 。cache 一 致 性 的 维护 是 这 类 系统 的 关键 ， 
决定 着 系统 的 可 扩展 性 。 典 型 的 例子 有 Stanford 大 学 的 DASH 和 FLASH. MIT 的 
Alewife, 以 及 SGI 的 Origin 2000 等 。 

(2) 高 速 缓存 不 一 致 的 非 均匀 存储 访问 结构 NCC-NUMA。 这 类 结构 的 每 个 处 理 器 
都 有 高 速 缓存 ,但 硬件 不 负责 维护 cache 一 致 性 。cache 一 致 性 由 编译 器 或 程序 员 来 维 
护 。 在 Cray 公司 的 T3D 和 T3E 中 ,系统 为 用 户 提供 了 一 些 用 于 同步 的 库 函 数 ,便于 用 
户 通过 设置 临界 区 等 手段 来 维护 数据 一 致 性 。 这 类 结构 的 好 处 是 系统 可 扩展 性 强 , 高 档 
的 T3D 及 T3E 产品 可 达 上 千 个 处 理 器 。 典 型 实例 是 Cray 公司 的 T3D 及 T3E 系列 
产品 。 

G) 唯 高 速 缓存 存储 访问 结构 COMA。 这 类 结构 的 共享 存储 器 的 地 址 是 活动 的 , 存 
储 单元 与 物理 地 址 相 分 离 。 根 据 访 存 模式 ,数据 可 以 在 各 结 点 的 存储 器 之 间 动 态 地 移动 
和 复制 。 每 个 结 点 的 存储 器 相当 于 一 个 大 容量 高 速 缓存 ,数据 一 致 性 也 在 这 一 级 维护 。 
这 类 结构 的 优点 是 在 本 地 共享 存储 器 命中 的 概率 较 高 ; 其 缺点 是 当 处 理 器 的 访问 在 本 结 
点 不 命中 时 ,由 于 存储 器 的 地 址 是 活动 的 ,需要 一 种 机 制 来 查找 被 访问 单元 的 当前 位 置 , 
因此 延迟 很 大 。 典 型 实例 有 Kendall Square Research 的 KSR1 和 瑞典 计算 机 研究 院 
的 DDM., 

(4) 共享 虚拟 存储 访问 结构 SVM, 又 称 软 DSM 系统 。 在 基于 消息 传递 的 MPP 或 机 
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群 系统 中 ,SVM 系统 用 软件 的 方法 把 分 布 于 各 结 点 的 多 个 独立 编 址 的 存储 器 组 织 成 为 一 
个 统一 编 址 的 共享 存储 空间 。 其 优点 是 在 消息 传递 系统 上 实现 了 共享 存储 的 编程 界面 ， 
但 主要 的 问题 是 难以 获得 满意 的 性 能 。 与 硬件 共享 存储 系统 相 比 ,SVM 系统 较 大 的 通信 
开销 和 共享 粒度 (通常 是 存储 页 ,页 大 小 由 操作 系统 决定 ) 会 导致 假 共享 及 额外 的 通信 。 
在 基于 机 群 的 SVM 系统 中 ,通信 开销 会 很 大 。 与 消息 传递 系统 (如 MPI) 相 比 ,基于 
SVM 系统 的 并 行程 序 通 信 量 通常 会 更 大 。 

由 于 SVM 结构 的 出 现 ,使 得 采用 消息 传递 模式 的 并 行 计算 机 系统 也 能 虚拟 实现 
DSM。 这 也 说 明 各 种 结构 的 并 行 计算 机 的 融合 是 未 来 发 展 的 趋势 。 


4. 典型 实例 


下 面 以 Stanford 大 学 研制 的 DASH 并 行 计算 机 系统 为 例 进行 详细 说 明 。 

DASH 是 Stanford 大 学 在 1992 年 研制 的 分 布 共享 存储 多 处 理 机 系统 。DASH 是 共 
享 存储 的 目录 结构 (Directory Architecture for Shared Memory) 的 英文 缩写 。 它 采用 了 
CC-NUMA 结构 ,使 用 基于 目录 的 方法 维持 cache 一 致 性 ,具有 分 布 式 存储 器 和 单 地 址 空 
间 , 为 建立 具有 单一 地 址 空间 的 可 扩展 并 行 计算 机 提供 了 设计 范例 。DASH 的 结构 如 
图 2-6 所 示 。 


虫 蚀 选 路 两 个 二 维 网 格 H 
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aiies 处 理 器 网 络 接口 


R3000 高 速 缓存 侦 听 目录 
] 


侦 听 总 线 


I 
储存 器 (全 局 编 址 ) 


图 2-6 DASH 结构 图 


DASH 系统 包含 16 个 SGI SMP 结 点 ,每 个 结 点 有 4 个 MIPS R3000/R3010 处 理 
器 ,总 共有 64 个 处 理 器 ,处 理 器 频率 为 33MHz。 与 一 般 SGI SMP 结 点 不 同 的 是 ,DASH 
系统 中 的 SMP 结 点 有 两 块 特殊 子 板 ,其 上 装 有 网 络 接口 电路 和 cache 目录 。16 个 SGI 
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SMP 结 点 由 采用 虫 蚀 寻 径 方式 的 两 个 二 维 网 格 型 网 络 (包括 一 个 用 于 向 远程 存储 器 发 送 
请 求 的 请 求 网 格 和 一 个 对 应 的 应 答 网 格 ) 进 行 连接 。 网 格 的 通道 带宽 为 16 位 ,通过 时 间 
为 50ns。 

网 格 型 网 络 可 支持 本 地 和 全 局 存储 器 的 频 宽 扩展 ,这 有 利于 开发 局 部 性 。 共 享 存储 
器 的 单 地 址 空间 更 利于 编译 和 程序 设计 。 

在 1996 年 ,SGI 公 司 将 DASH 结构 商业 化 ,推出 了 Origin 系列 产品 , 称 为 可 扩展 共 
享 存储 器 结构 (Scalable Shared Memory Architecture,S2MA), 从 而 使 DASH 成 为 DSM 
系统 的 标志 性 范例 。 


2.1.5 MPP 大 规模 并 行 处 理 机 系统 
1. 简介 


大 规模 并 行 处 理 机 (Massively Parallel Processor. MPP) 是 指 由 几 百 或 几 千 台 处 理 机 
组 成 的 大 规模 并 行 计算 机 系统 。MPP 系统 中 处 理 器 数目 巨大 ,整个 系统 规模 庞大 ,许多 
硬件 设备 是 专门 设计 制造 的 ,开发 起 来 比较 困难 ,通常 被 视 为 国家 综合 实力 的 象征 。 同 
时 ,MPP 能 够 提供 SMP、DSM 等 并 行 计算 机 不 能 达到 的 计算 能 力 。MPP 的 一 般 结构 如 


图 2-7 所 示 。 
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图 2-7 MPP 结构 图 


针对 MPP 系统 的 研究 虽 已 有 较 长 的 历史 ,但 由 于 研制 费用 高 , 故 主要 由 大 公司 或 研 
究 机 构 研 制 生产 。 尤 其 是 超大 规模 MPP 系统 (如 峰值 运算 速度 在 每 秒 一 万 亿 次 以 上 浮 
点 运算 的 系统 ) 的 研制 ,通常 为 政府 行为 ,如 美国 的 ASCI 计划 和 CIC (Computing 
Information and Communication Program) 计 划 中 的 高 端 并 行 机 。ASCI 计划 由 美国 能 源 
部 出 资 ,在 美国 三 大 军用 实验 室 , 使 用 由 IBM, Intel 与 SGI 三 家 公司 研制 的 超级 计算 机 进 
行 核武 器 测试 。MPP 系统 过 去 主要 用 于 科学 计算 、 工 程 模拟 等 以 计算 为 主 的 场合 。 目 
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前 ,MPP 也 广泛 应 用 于 商业 和 网 络 应 用 中 ,例如 应 用 于 数据 仓库 决策 支持 系统 和 数字 图 
书馆 等 中 。 


2. 特点 


MPP 通常 具有 如 下 特点 : 

* 在 处 理 结 点 中 使 用 商品 化 处 理 器 , 且 每 个 结 点 有 一 个 或 多 个 处 理 器 ; 

。 在 处 理 结 点 内 使 用 物理 上 分 布 的 存储 器 ; 

使 用 具有 高 通信 带宽 和 低 延 迟 的 互联 网 , 结 点 之 间 彼 此 是 紧 耦 合 的 ; 

能 扩展 到 成 百 上 千 个 处 理 器 ; 

。 它 是 一 个 异步 多 指令 流 多 数据 流 (MIMD) 计 算 机 ,通常 采用 锁 方 式 进行 消息 传递 
操作 来 实现 同步 ,也 有 采用 共享 变量 来 实现 同步 操作 的 实例 ; 

其 上 的 程序 由 多 个 进程 组 成 ,每 个 进程 拥有 自己 的 私有 地 址 空间 ,通过 显 式 的 消 
息 传 递 实现 进程 间 通 信 ,数据 分 布 对 于 用 户 来 说 不 是 透明 的 。 


3. 关键 技术 


MPP 的 特殊 之 处 在 于 系统 被 设计 成 可 扩展 至 数 千 个 处 理 器 ,上 且 主 存 、.IVO 能 力 和 带 
宽 能 成 比例 地 增加 。 为 提高 其 可 扩展 性 ,MPP 采用 了 如 下 技术 : 
。 使 用 物理 上 表现 为 分 布 式 的 主 存 体系 结构 , 它 提 供 比 集中 式 主 存 体系 结构 更 高 的 
总 主 存 带 宽 , 因 此 具有 潜在 更 高 的 可 扩展 性 ; 
。 人 处理 能 力 与 主 存 和 I/O 能 力 之 间 的 平衡 性 ,车 没有 成 比例 的 高 速 主 存 和 1/O 子 系 
统 ,那么 数据 不 可 能 以 足够 快 的 速度 被 送 入 处 理 器 ,高 速 处 理 器 就 将 几乎 毫 无 
价值 ; 
。 计算 能 力 与 并 行 性 和 交互 能 力 之 间 的 平衡 性 , 减 小 进程 /线程 管理 .通信 以 及 同步 
的 开销 。 
MPP 系统 必须 接受 严酷 的 可 用 性 考验 。 据 统计 ,一 个 常规 的 MPP 系统 ,每 1000 个 
处 理 器 就 会 有 1 个 处 于 失效 状态 。 因 此 ,还 需要 采用 如 下 技术 来 保证 MPP 的 可 用 性 : 
。 具 有 隔离 的 宛 余 设备 , 当 某 个 主 组 件 失效 时 ,其 辅助 组 件 承 担 其 提供 的 服务 , 且 主 
组 件 和 辅助 组 件 需 要 隔离 开 , 以 避免 其 同时 失效 ; 
。 能 够 实现 故障 接管 , 即 当 一 组 件 发 生 故 障 时 ,通过 故障 诊断 ,故障 通知 故障 恢复 ， 
能 够 使 系统 剩余 部 分 承担 故障 组 件 的 工作 ,从 而 实现 任务 迁移 。 
此 外 ,MPP 系统 采用 虚拟 化 单一 系统 映像 技术 , 即 在 不 同 层 次 上 实现 统一 的 系统 映 
像 ,使 用 户 可 以 将 整个 系统 视 为 一 个 整体 ,从 而 简化 系统 管理 ,降低 操作 难度 。 
MPP 系统 与 机 群 系统 的 关键 差别 在 于 结 点 之 间 的 通信 。 在 机 群 系统 中 , 结 点 之 间 通 
常 由 标准 局 域 网 相连 ; 而 在 MPP 系统 中 , 结 点 之 间 由 高 带宽 、 低 时 延 的 高 速 专用 网 络 互 
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联 , 同 时 还 提供 专用 通信 软件 以 实现 高 性 能 。 

这 里 需要 特别 指出 的 是 , 随 着 标准 网 络 技 术 的 飞速 发 展 , MPP 系统 正 逐 渐 被 机 群 系 
统 所 取代 ,并 且 随 着 并 行 计算 机 技术 的 发 展 ,MPP 系统 与 其 他 类 型 的 并 行 计算 机 之 间 的 
界限 变 得 越 来 模糊 。 


4. 典型 实例 


下 面 介绍 一 个 MPP 的 典型 实例 : Cray 公司 的 T3E。 

于 1995 年 交付 使 用 的 Cray T3E 是 1993 年 生产 的 Cray T3D 系统 的 后 继 产 品 。 它 
使 用 了 更 快 的 部 件 , 并 在 体系 结构 方面 做 了 一 些 修改 以 提高 性 能 。 

Cray T3E 是 一 个 分 布 共享 存储 NCC-NUMA 的 多 处 理 机 。 该 系统 由 多 个 处 理 单元 
PE(Processing Element) 组 成 ,PE 之 间 由 一 个 三 维 双向 环 网 进行 互 连 以 提供 快速 的 通 
信和 ,并 由 千 兆 环 通道 提供 与 1/O 设备 的 连接 。 

Cray T3E 的 每 个 PE 中 有 一 个 DEC Alpha 21164 微 处 理 器 ,其 外 部 是 一 个 shell 电 
路 ,包括 一 个 本 地 主 存 、 一 个 控制 芯片 和 一 个 路 由 芯片 。 该 系统 的 峰值 速度 可 达 
600MFLOPS, 

本 地 主 存 提 供 64MB 一 2GB 的 容量 以 及 1.2GB/s 的 峰值 带宽 。 路 由 芯片 有 7 个 双向 
端口 ,1 个 连接 到 PE, 其 余 6 个 连接 到 三 维 环 网 的 6 个 链接 上 。 

定制 的 控制 芯片 实现 分 布 共享 存储 , 它 由 所 有 PE 中 的 本 地 主 存 组 成 。 每 个 处 理 器 
可 以 访问 任意 PE 中 的 主 存 , 每 个 PE 可 以 通过 千 兆 环 通 道 访问 任意 1/0 设备 。 该 控制 芯 
片 同时 负责 支持 时 延 隐藏 和 有 效 同 步 。 

Cray T3E 的 处 理 单元 没有 主板 级 高 速 缓存 ,而 是 使 用 DEC Alpha 21164 微 处 理 器 
中 的 高 速 缓存 。 片 内 的 高 速 缓存 有 两 级 : 第 一 级 由 一 个 8KB 指令 高 速 缓存 和 一 个 8KB 
数据 高 速 缓存 组 成 ; 第 二 级 是 一 个 三 路 组 相连 (Three-Way Set-Associative) 的 96KB 统 
一 高 速 缓存 ,用 于 存储 指令 和 数据 。Cray T3E 之 所 以 不 使 用 主板 级 高 速 缓存 是 为 了 提高 
主 存储 器 的 带宽 。 

Cray T3E 的 结构 如 图 2-8 所 示 。 

Cray T3E 是 一 个 自主 系统 , 它 运行 Cray 64 位 UNIX 系统 (UNICOS) 的 一 个 变 体 ， 
称 之 为 UNICOS/mk。 它 是 一 个 分 布 式 的 操作 系统 ,在 其 核心 层 提 供 单 一 系统 映像 。 
Cray T3E 提供 一 个 集成 环境 ,支持 共享 变量 ,消息 传递 和 数据 并 行 编程 。 

UNICOS/mk 操作 系统 分 为 本 地 和 全 局 服务 器 。Cray T3E 的 PE 分 为 用 户 PE 和 系 
统 PE。 其 中 ,用 户 PE 运行 用 户 的 应 用 和 命令 ,系统 PE 负责 提供 全 局 操作 系统 服务 。 每 
个 用 户 PE 包括 本 地 服务 器 和 一 个 使 用 Chorus 技术 的 UNIX 微 内 核 。 

所 有 特定 的 进程 请 求 都 由 本 地 服务 器 和 UNIX 微 内 核 进行 处 理 , 包 括 主 存 分 配 和 消 
息 / 数 据 传 递 。 全 局 服务 器 提供 系统 范围 的 服务 ,包括 进程 管理 .文件 空间 分 配 、 调 度 、. 安 
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全 性 和 TO 管理 等 。 

UNICOS/mk 操作 系统 使 用 作业 自动 恢复 来 支持 可 用 性 ,其 方法 有 由 UNIX 微 内 核 
支持 的 检测 点 /重启 .共享 文件 系统 等 。 可 用 性 包括 提供 资源 管理 .系统 管理 .系统 监控 、 
作业 调度 和 安全 性 服务 等 一 系列 的 工具 。 

为 获得 可 扩展 的 1/O,UNICOS/mk 操作 系统 实现 了 分 布 式 文件 系统 管理 。 用 户 PE 
中 的 本 地 文件 服务 器 提供 无 缓冲 的 读 写 请 求 服务 ,只 有 不 太 常 用 的 请 求 ( 如 文件 打开 和 关 
闭 ) 才 需要 使 用 全 局 文件 服务 器 。 多 文件 服务 器 能 够 实现 并 行 1/O。 

Cray T3E 提供 了 支持 Fortran 90,C 和 C++ 的 优化 编译 器 一 系列 优化 和 并 行 化 的 
科学 与 数学 库 。Cray T3E 支持 使 用 Fortran 90 和 HPF 语言 的 数据 并 行 编程 模式 ,支持 
使 用 PVM 和 MPI 库 的 消息 传递 编程 模式 ,支持 使 用 Cray 共享 存储 库 SHMEM 和 
CRAFT 编译 器 命令 与 库 例 程 的 共享 变量 编程 模式 。 它 们 之 间 还 可 以 混合 使 用 。 
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图 2-8 T3E 结构 图 


2.1.6 机 群 系统 
1. 简介 


机 群 系统 (Cluster) 是 相互 连接 的 多 个 同 构 或 异 构 的 独立 计算 机 的 集合 体 , 结 点 之 间 
通过 高 性 能 互联 网 连接 。 每 个 结 点 都 有 自己 的 存储 器 1/O 设备 和 操作 系统 ,可 以 作为 单 
机 使 用 。 结 点 之 间 相互 协同 工作 来 完成 较 复杂 的 并 行 性 任务 ,从 而 成 为 一 个 多 处 理 机 系 
统 。 在 最 近 的 10 年 里 ,机 群 系统 以 其 高 性 价 比 、 高 可 扩展 性 和 结构 的 灵活 性 逐渐 在 越 来 
越 多 的 领域 得 到 应 用 ,成 为 高 性 能 计算 机 家 族 中 发 展 最 快 的 一 员 。 

机 群 系统 的 结构 (如 图 2-9 所 示 ) 十 分 灵活 ,系统 中 的 各 个 结 点 可 以 是 完全 不 同 的 结 
构 , 结 点 之 间 采 用 商用 网 络 进 行 互联 。 


m 


第 2 章 并行 计算 机 体系 结构 E b 


1 号 结 点 2 号 结 点 7 号 结 点 
cache cache cache d cache 
I I I 1 
在 10 存 1/0 f£ 10 
储 储 [4 
men [eR [ 网 络 接口 58 | 网 络 接口 
商品 网 络 


图 2-9 机 群 系统 结构 图 
2. 特点 


机 群 系统 具有 如 下 特点 : 

灵活 性 强 , 机 群 系统 的 各 结 点 构成 十 分 灵活 ,每 个 结 点 可 以 是 单 处 理 机 ,也 可 以 是 
SMP 或 其 他 类 型 的 并 行 计算 机 。 

结 点 独立 性 ,每 个 结 点 都 是 一 个 完整 的 系统 ,有 自己 的 本 地 磁盘 和 操作 系统 。 

可 靠 性 高 ,机 群 系统 中 每 个 结 点 都 是 独立 的 PC 或 工作 站 。 某 个 结 点 的 失效 不 会 
影响 其 他 结 点 的 正常 工作 ,能 够 完成 故障 接管 和 任务 迁移 ,保证 系统 的 可 靠 性 。 
可 扩展 性 强 ,由 于 机 群 系统 结构 的 灵活 性 和 松 耦 合 方式 ,机 群 系统 的 硬件 容易 被 
扩充 和 替换 ,可 根据 需求 增加 结 点 的 数量 。 

系统 开发 周期 短 ,机 群 系统 大 多 采用 商品 化 的 PC 和 工作 站 作为 结 点 ,并 通过 商用 
网 络 连接 在 一 起 ,编程 方法 成 熟 且 有 继承 性 ,便于 开发 者 快速 上 手 ,无须 适应 新 的 
环境 ,能 够 大 大 节省 研究 时 间 。 

性 价 比 高 ,由 于 传统 并 行 计算 机 大 多 属于 定制 机 ,生产 数量 较 小 ,所 以 价格 昂贵 。 
而 机 群 系统 的 结 点 和 网 络 采用 的 是 大 批量 生产 的 计算 机 产品 ,成 本 相对 较 低 , 具 
有 更 高 的 性 价 比 。 


3. 关键 技术 


机 群 系统 具有 很 多 其 他 并 行 计算 机 不 可 比拟 的 优势 ,同时 也 面临 许多 设计 问题 ,比如 
可 用 性 、 良 好 的 性 能 、 可 扩展 性 等 。 具 体 来 说 ,涉及 到 如 下 几 个 方面 的 问题 。 

1) 高 效 通 信 

机 群 系统 比 其 他 并 行 计算 机 更 需要 一 个 高 效 的 通信 子 系统 ,因为 机 群 系统 有 以 下 
特点 : 
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* 结 点 复杂 度 高 ,不 可 能 做 到 紧 耦 合 ; 
* 结 点 之 间 的 连接 线路 比较 长 , 带 来 了 较 大 的 通信 延迟 ,同时 也 带 来 了 可 靠 性 、 串 道 
等 问题 ; 

。 机 群 系统 一 般 使 用 标准 通信 协议 下 的 商用 网 络 ,通信 协议 的 开销 比较 大 。 

因此 ,高 效 的 通信 子 系统 是 提高 机 群 系统 性 能 的 关键 ,对 机 群 系统 的 并 行 加 速 比 、 并 
行 效率 、 可 扩展 性 以 及 系统 的 适用 范围 等 有 着 十 分 重要 的 影响 。 加 快 通信 速度 .减少 通信 
开销 、 使 系统 的 资源 主要 用 于 计算 等 是 机 群 系统 研制 的 重要 内 容 。 

提高 机 群 系统 的 通信 性 能 需要 考虑 如 下 几 个 方面 : 

。 采用 新 型 高 速 网 络 ,提高 网 络 带 宽 , 目 前 已 有 1Gb/s 的 高 速 商用 网 络 ; 

。 设计 新 的 通信 协议 ,降低 通信 延迟 ,尽量 减少 网 络 协议 对 主机 操作 系统 的 服务 请 

求 ,最 大 限度 地 实现 通信 与 计算 的 重 树 。 

2) 负载 均衡 和 任务 调度 

在 机 群 系统 中 ,一 个 大 的 任务 往往 由 多 个 子 任务 组 成 。 分 配 到 各 个 处 理 结 点 上 并 行 
执行 的 子 任务 ,被 称 为 负载 。 当 整个 系统 的 任务 较 多 时 ,分 配给 各 个 处 理 结 点 的 负载 可 能 
并 不 均衡 ,此 时 整个 系统 的 利用 率 就 会 降低 。 因 此 ,机 群 系统 必须 做 好 任务 调度 以 尽 可 能 
达到 负载 均衡 。 

一 般 来 说 ,负载 均衡 技术 有 静态 和 动态 两 类 方法 。 静态 负载 均衡 方法 就 是 在 编译 时 
针对 用 户 程序 中 的 各 种 信息 和 机 群 系统 的 特点 对 用 户 的 任务 进行 静态 划分 。 静 态 负载 均 
衔 方法 需要 建立 在 对 任务 的 总 体 掌 握 和 对 机 群 系统 进行 深入 分 析 的 基础 上 ,因此 常 作为 
一 种 理论 方法 。 动 态 负载 均衡 方法 是 通过 分 析 机 群 系统 的 实时 负载 信息 ,动态 地 将 任务 
在 各 处 理 结 点 之 间 进 行 分 配 和 调整 ,以 消除 系统 中 负载 分 布 的 不 均匀 性 。 动 态 负 载 均衡 
的 特点 是 算法 简单 ,实时 调度 ,但 同时 也 增加 了 系统 的 额外 开销 。 

3) 单一 系统 映像 

单一 系统 映像 (Single System Image,SSI) 是 机 群 系统 的 一 个 重要 特征 , 它 可 使 机 群 
系统 在 使 用 、 控 制 、. 管 理 和 维护 上 更 像 一 台 工 作 站 。 单 一 系统 映像 可 以 让 机 群 系统 灵活 地 
采用 集中 式 或 分 布 式 的 管理 和 控制 ,大 大 简化 系统 的 管理 ,降低 操作 员 错 误 带 来 的 风险 。 

要 实现 单一 系统 映像 ,需要 分 别 实现 以 下 几 个 目标 : 

。 单一 系统 人 口 ; 

。 单一 文件 层次 目录 结构 ; 

。 单 一 输入 输出 ; 

。 单 一 进程 空间 。 

4) 容错 性 与 可 用 性 

机 群 系统 的 结 点 众多 ,结构 复杂 ,系统 中 结 点 发 生 故 障 的 概率 较 高 。 因 此 ,容错 性 和 
可 用 性 是 一 个 机 群 系统 必须 解决 的 问题 。 一 般 来 说 ,要 求 机 群 系统 能 够 自动 恢复 瞬时 或 
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间歇 性 故障 ,能 够 人 工 恢复 永久 故障 ,支持 在 线 维修 和 处 理 机 资源 的 排他 或 限时 使 用 ,此 
外 为 了 实现 动态 负载 均衡 ,还 应 能 进行 进程 迁移 。 

目前 , 常 采用 检查 点 设置 和 回 卷 恢复 (Checkpoint and Rollback Recovery) 技 术 来 实 
现 上 述 目标 。 在 程序 运行 过 程 中 设置 检查 点 ,保存 进程 状态 中 那些 决定 程序 正确 执行 的 
关键 内 容 。 当 系统 出 现 故障 时 ,程序 回 卷 到 最 近 的 检查 点 继续 执行 ,无 须 从 头 开始 。 回 卷 
的 各 目标 检查 点 所 保存 的 进程 状态 与 当时 的 通信 状态 组 成 一 致 性 全 局 状态 ,并 采用 同步 
回 卷 技 术 以 避免 活 锁 。 


4. 典型 实例 


下 面 以 IBM 公司 的 SP2 机 群 系统 为 例 进行 说 明 。 

SP2 系统 早先 划 归 为 MPP, 但 由 于 其 采用 了 机 群 技术 ,所 以 从 广义 上 讲 , 它 也 是 机 群 
系统 的 一 个 典型 实例 。IBM 公司 在 1991 年 秋天 涉足 MPP 的 商业 化 ,启动 了 SP(Scalable 
POWER parallel) 项 目 。 在 1992 4E 2 月 成 立 了 一 个 开发 小 组 ,在 1993 年 4 月 发 布 了 它 的 
第 一 个 产品 SP1 ,继而 在 1994 年 7 月 发 布 SP2 系统 。 到 1998 年 ,全 球 已 安装 超过 3000 
f: SP 系统。 其 中 ,在 1997 年 的 人 机 大 战 中 战胜 世界 国际 象棋 冠军 卡 斯 帕 罗 夫 的 “深蓝 
(Deep Blue)” 就 是 一 台 采 用 了 30 个 RS/6000 工作 站 的 IBM SP2 机 群 系统 。 

一 个 SP2 系统 (如 图 2-10 所 示 ) 可 包括 2 一 512 个 结 点 ,每 个 结 点 都 有 自己 的 局 部 存 
储 器 和 局 部 磁盘 ,所 有 的 结 点 均 连 接 两 个 网 络 : 一 个 普通 的 以 太 网 和 一 个 高 性 能 开关 
(High Performance Switch,HPS) 。 以 太 网 的 速度 比较 慢 , 但 可 在 HPS 失效 时 作为 备用 
连接 使 用 。 当 HPS 和 相关 软件 正在 开发 和 改进 时 ,可 利用 以 太 网 对 系统 的 其 他 部 分 进行 
开发 .调试 ,测试 以 及 使 用 ,此 外 以 太 网 还 可 用 于 系统 监视 、 启 动 . 载 入 、 测 试 和 管理 等 。 


以 太 网 


Omega 网 络 ] 


图 2-10 SP2 机 群 结构 图 


HPS 是 一 个 4 级 Omega 网 络 (一 种 多 级 互联 网 ,又 称 多 级 洗 牌 交换 网 络 ) ,由 40MHz 
时 钟 驱动 ,由 8 个 开关 帧 和 4 块 开关 板 构成 。 它 采用 虫 蚀 寻 径 方法 ,理论 上 一 个 8 位 的 
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数据 片 在 无 竞争 时 通过 HPS 只 需 20 个 时 钟 周期 ( 即 500ns) 。 因 此 ,HPS 在 无 竞争 时 
的 理论 延迟 是 很 小 的 ,但 实际 延迟 比 该 值 要 高 得 多 。 比 如 ,一 个 进程 发 送 一 个 空 包 给 
另 一 个 进程 至 少 需要 40ys, 这 种 消息 传递 的 延迟 大 部 分 是 由 软件 开销 造成 的 。SP2 的 
结构 如 图 2-10 所 示 。 

SP2 提供 如 下 三 种 物理 结 点 类 型 以 有 效 支持 配置 的 灵活 性 : 宽 结 点 (Wide Node) 7E 
结 点 (Thin Node) 和 窜 结 点 2。 这 三 种 类 型 的 结 点 的 差别 主要 在 于 存储 器 容量 、 数 据 位 宽 
和 1/O 总 线 槽 数 的 不 同 , 但 是 所 有 的 结 点 都 使 用 了 时 钟 频率 为 66. 7MHz 的 POWER2 微 
处 理 器 。 每 个 处 理 器 都 有 一 个 32KB 的 指令 高 速 缓存 .256KB 的 数据 高 速 缓存 ,一 个 指令 
和 分 支 控制 部 件 两 个 整数 部 件 \ 两 个 可 在 一 个 时 钟 周期 内 执行 乘法 和 加 法 的 浮 点 部 件 。 


2.1.7 并 行 计算 机 传统 体系 结构 的 比较 与 分 析 


SMP, DSM, MPP 和 机 群 系统 作 为 四 种 最 经 典 的 并 行 计算 机 模型 ,基本 包括 了 从 简 
单 到 复杂 .不 同时 期 .不 同 用 途 的 并 行 计算 机 。 学 习 这 些 经 典 并 行 计算 机 的 体系 结构 和 设 
计 方法 ,了 解 它们 的 异同 和 各 自 特点 ,对 于 开发 更 先进 的 并 行 计算 机 具有 重要 的 意义 。 四 
种 典型 并 行 计算 机 特征 的 比较 如 表 2-2 所 示 。 

同时 也 应 看 到 ,并 行 计算 机 的 设计 具有 很 强 的 灵活 性 ,上 述 四 种 类 型 的 并 行 计算 机 不 
具有 排他 性 的 分 别 。 一 些 经 典 的 并 行 计算 机 就 是 吸收 了 多 种 不 同类 型 计算 机 的 特点 而 开 
发 出 来 的 。 如 Cray 公司 的 T3D、T3E 系列 机 型 就 是 采用 DSM 结构 的 MPP.IBM 公司 的 
SP 系列 机 型 同时 具备 机 群 和 MPP 的 特点 。 


表 2-2 四 种 典型 并 行 计算 机 特征 的 比较 


属性 SMP DSM MPP Cluster 
互联 网 总 线 / 交 叉 开关 定制 网 络 定制 网 络 商用 网 络 /以 太 网 
地 址 空间 单 地 址 空间 单 地 址 空间 单 /多 地 址 空间 多 地 址 空间 
存储 器 集中 存储 分 布 式 存储 分 布 式 存储 分 布 式 存储 
通信 机 制 共享 存储 共享 存储 消息 传递 /共享 存储 ”消息 传递 
代表 机 型 Sun T1 Stanford DASH Intel Paragon Berkeley NOW 
SGI Challenge Origin 2000 Cray T3E IBM SP2 
LE 


C 

一 般 来 说 ,SMP 结构 简单 ,采用 共享 存储 ,扩展 性 差 ,适用 于 对 扩展 性 要 求 不 高 的 小 
规模 计算 ; DSM 吸收 了 共享 存储 与 分 布 存储 的 优势 ,编程 简单 同时 兼顾 可 扩展 性 ,是 现 
在 设计 并 行 计算 机 的 一 种 典型 方法 ; MPP 作为 曾经 的 高 性 能 计算 界 的 主流 机 型 ,拥有 良 
好 的 可 扩展 性 ,但 其 紧 耦 合 的 特点 影响 了 灵活 性 ,正在 逐渐 退出 历史 舞台 ; 机 群 系统 以 其 
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良好 的 可 靠 性 、 灵 活性 和 可 扩展 性 ,成 为 高 性 能 计算 机 的 主流 机 型 ,在 最 新 的 全 球 超 级 计 
算 机 top500 排行 榜 中 ,机 群 系统 已 经 占 到 85% 以 上 。 这 四 种 并 行 计算 机 各 具 特 点 ,适用 
于 不 同 环境 和 任务 。 只 有 根据 需求 合理 的 使 用 它们 ,才能 发 挥 并 行 计算 机 应 有 的 性 能 
优势 。 


2.2 多 核 CPU 


中 央 处 理 器 (Central Processing Unit. CPU) ,又 称 为 微 处 理 器 ,是 现代 计算 机 的 主要 
部 件 之 一 。 其 功能 主要 是 解释 计算 机 指令 以 及 处 理 计算 机 软件 中 的 数据 ,所 谓 的 可 编程 
性 主要 是 指 对 CPU 的 编程 。 其 内 部 结构 大 概 可 以 分 为 控制 单元 .算术 逻辑 单元 和 存储 
单元 等 几 部 分 ,这 几 部 分 相互 协调 ,对 命令 和 指令 进行 分 析 .运算 ,并 控制 计算 机 各 部 分 协 
调 工作 。 

CPU 从 最 初 发 展 至 今 已 经 有 三 十 多 年 的 历史 ,由 于 CPU 具有 体积 小 .重量 轻 、 功 耗 
低 .功能 性 强 、 结 构 灵 活 .价格 低廉 等 特点 和 优点 ,因此 得 到 了 广泛 的 应 用 ,也 使 得 计算 机 
深入 到 人 类 社会 生产 和 生活 的 各 个 方面 。 目 前 ,计算 机 已 经 成 为 人 们 工作 和 生活 中 不 可 
缺少 的 工具 ,人 类 社会 已 经 进入 信息 时 代 。 


2.2.1 处 理 器 架构 
1. 计算 机 与 处 理 器 


CPU 是 一 台 计 算 机 的 运算 核心 和 控制 核心 ,计算 机 中 所 有 操作 都 由 CPU 负责 读 取 
指令 ,对 指令 译 码 并 执行 指令 。 按 照 处 理 信息 的 字 长 ,可 将 CPU 分 为 8 位 处 理 器 、16 位 
处 理 器 、32 位 处 理 器 以 及 64 位 处 理 器 等 ; 按照 内 部 核心 的 数目 ,又 可 将 CPU 分 为 单 核 处 
理 器 、 多 核 处 理 器 和 众 核 处 理 器 等 。 


2. 单 核 处 理 器 概述 及 其 发 展 历史 


1971 年 ,Intel 公司 推出 了 4 位 处 理 器 4004, 如 图 2-11(a) 所 示 。 片 内 集成 了 2250 个 
晶体 管 ,晶体 管 之 间 的 距离 是 10pm, 能 够 处 理 4 位 的 数据 ,每 秒 运算 6 万 次 ,运行 的 时 钟 
频率 为 108kHz, 有 ROM, RAM 以 及 1/0 的 接口 。 该 款 芯片 是 第 一 款 真 正 意 义 上 的 
CPU。 但 是 由 于 性 能 很 差 , 其 市 场 反应 不 是 很 理想 。 

1972 年 ,Intel 公司 推出 了 世界 上 第 一 款 8 位 处 理 器 8008, 如 图 2-11(b) 所 示 。8008 
是 4004 的 8 位 版 本 ,8008 可 以 支持 最 大 16KB 的 内 存 。 

1974 年 ,Intel 公司 推出 8 位 处 理 器 8080, 如 图 2-11(c) 所 示 。8080 的 时 钟 频率 为 
2MHz, 集 成 了 6000 只 晶体 管 , 每 秒 运算 29 万 次 .具有 16 位 地 址 总 线 和 8 位 数据 总 线 , 包 
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含 7 个 8 位 寄存 器 ,支持 16 位 内 存 , 同 时 还 包含 一 些 输入 输出 端口 ,有 效 解决 了 外 部 设备 
的 内 存 寻 址 能 力 不 足 的 问题 。 之 后 Intel 公司 又 推出 的 8 位 处 理 器 8085, 如 图 2-11(d) 所 
7R. Intel 8085 可 以 向 前 兼容 Intel 8080, 


ox 


(a) Intel 4004 (b) Intel 8008 (c) Intel 8080 (d) Intel 8085 


图 2-11 Intel 公司 推出 的 4 位 和 8 位 处 理 器 


1978 年 ,Intel 公司 推出 了 其 16 位 处 理 器 的 典型 代表 8086 以 及 数字 协 处 理 器 8087, 
如 图 2-12(a) 和 (b) 所 示 。8086 处 理 器 的 最 高 主 频 为 8MHz, 具 有 16 位 数据 通道 ,内 存 寻 
址 能 力 为 1MB。8086 与 8087 使 用 相互 兼容 的 指令 集 , 但 在 8087 的 指令 集中 增加 了 一 些 
专门 用 于 处 理 对 数 、 指 数 和 三 角 函 数 等 数学 计算 的 指令 ,人 们 将 这 些 指 令 集 统称 为 x86 指 
令 集 。Intel 把 基于 32 位 x86 指令 系统 的 个 人 计算 机 称 为 英特尔 体系 32 CIntel 
Architecture-32,1A-32) 。 虽 然 之 后 Intel. 又 陆续 生产 出 第 二 代 、 第 三 代 等 更 先进 和 更 快 
的 CPU ,但 都 仍然 兼容 原来 的 x86 指令 集 。 

1979 年 ,Intel 公司 推出 了 16 位 处 理 器 8088, 如 图 2-12(c) 所 示 。8088 内 含 2. 9 万 个 
晶体 管 ,时 钟 频率 为 4.77MHz, 具 有 20 位 地 址 总 线 ,16 位 内 部 数据 总 线 ,8 位 外 部 数据 总 
线 , 内 存 寻 址 能 力 为 1MB。1981 年 ,8088 被 首次 用 于 IBM PC 中 ,PC 的 第 一 代 CPU fi 
由 此 开始 。 

1982 年 ,Intel 公司 推出 了 16 位 处 理 器 80286 ,如 图 2-12(d) 所 示 。80286 内 部 包含 
13.4 万 个 晶体 管 , 时 钟 频率 达到 了 20MHz。 其 内 外 部 数据 总 线 均 为 16 位 ,地 址 总 线 为 
24 位 ,内 存 寻 址 能 力 为 11MB, 可 使 用 实 模式 和 保护 模式 两 种 工作 方式 。 


p> s 


(a) Intel 8086 (b) Intel 8087 (c) Intel 8088 (d) Intel 80286 
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Æ 2-12 Intel 公司 推出 的 16 位 处 理 器 


1985 年 ,Intel 公司 推出 了 x86 架构 中 第 一 款 32 位 处 理 器 80386 ,如 图 2-13(a) 所 示 。 
80386 内 部 包含 27. 5 万 个 晶体 管 , 刚 推出 时 的 时 钟 频率 为 12. 5MHz, 之 后 逐步 提高 到 
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33MHz。 具 有 32 位 的 内 部 数据 总 线 、 外 部 数据 总 线 和 地 址 总 线 ,内 存 寻 址 能 力 为 4GB。 
80386 除了 具有 实 模式 和 保护 模式 之 外 ,还 增加 了 一 种 虚拟 86 的 工作 方式 ,可 以 通过 同 
时 模拟 多 个 8086 处 理 器 来 提供 多 任务 处 理 能 力 。80386 处 理 器 没有 内 置 协 处 理 器 ,不 能 
执行 浮 点 运算 指令 。 如 果 需 要 进行 浮 点 运算 ,必须 额外 购买 昂贵 的 80387 协 处 理 器 芯片 ， 
如 图 2-13(b) 所 示 。Intel 公司 推出 80386 处 理 器 之 后 ,AMD 公司 推出 了 相应 的 32 位 处 
理 器 AMD Am386DXL-40, 如 图 2-15(a) 所 示 。 

tasa in y 


(a) Intel 80386 (b) Intel 80387 (c) Intel 80486 


图 2-13 Intel 公司 推出 的 32 位 处 理 器 


1989 年 ,Intel 公司 推出 了 32 位 处 理 器 80486 ,如 图 2-13(c) 所 示 。80486 内 部 包含 了 
125 万 个 晶体 管 ,时 钟 频率 由 25MHz 逐步 提升 到 100MHz。80486 是 Intel 公司 第 一 款 内 
部 包含 数字 协 处 理 器 的 CPU ,并 在 x86 系列 中 首次 使 用 了 RISC( 精 简 指 令 集 ) 技 术 , 从 而 
提高 了 每 时 钟 周期 执行 指令 的 速度 。80486 还 采用 了 突 发 总 线 方式 ,大 大 提高 了 处 理 器 
与 内 存 的 数据 交换 速度 。Intel 公司 推出 80486 处 理 器 之 后 ,AMD 公司 推出 了 相应 的 32 
位 处 理 器 AMD Am486dx2-80, 如 图 2-15(b) 所 示 。 

1993 年 ,Intel 公司 推出 了 新 一 代 x86 架构 32 位 处 理 器 Pentium, 如 图 2-14(a) 所 示 。 
Pentium 内 部 集成 了 310 万 个 晶体 管 , 时 钟 频率 由 60MHz 逐步 提升 到 200MHz 以 上 。 
AMD 公司 推出 了 AMD K5 处 理 器 (如 图 2-15(c) 所 示 ) 来 应 对 Intel Pentium 处 理 器 ,但 
是 由 于 Pentium 的 性 能 更 佳 ,Intel 逐渐 占据 了 处 理 器 的 大 部 分 市 场 。 

1996 年 ,Intel 公司 推出 了 基于 x86 架构 的 32 位 处 理 器 Pentium Pro, 如 图 2-14(b) 
所 示 。Pentium Pro 的 内 部 集成 了 550 万 个 晶体 管 , 时 钟 频率 为 133MHz, 处 理 速度 几乎 
是 100MHz 的 Pentium 的 2 倍 。Pentium Pro 的 LI1( 片 内 )cache 为 8KB 指令 和 8KB 数 
据 。Pentium Pro 的 一 个 封装 中 除 Pentium Pro 芯片 外 还 包括 一 个 256KB 的 L2 cache i 


2 


(a) Intel Pentium (b) Intel Pentium Pro (c) Intel Pentium MMX 


图 2-14 Intel 公司 推出 的 Pentium 系列 处 理 器 
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片 ,两 个 芯片 之 间 用 高 频 宽 的 内 部 通信 和 总 线 互 连 , 处 理 器 与 高 速 缓存 的 连接 线路 也 被 安置 
在 该 封装 中 ,这 样 就 使 得 高 速 缓存 能 更 容易 地 运行 在 更 高 的 频率 上 。 同 时 ,Pentium Pro 
具有 一 项 称 为 “动态 执行 ”的 创新 技术 。 

1997 年 ,Intel 公司 推出 了 Pentium 系列 的 改进 版 本 , 即 Pentium MMX, 如 图 2-14(c) 所 
zh, Pentium MMX 在 原 Pentium 的 基础 上 进行 了 重大 的 改进 ,增加 了 片 内 16KB 数据 缓 
存 和 16KB 指令 缓存 ,4 路 写 缓存 以 及 从 Pentium Pro, Cyrix 继承 而 来 的 分 支 预测 单元 和 
返回 堆栈 技术 ,特别 是 新 增加 的 57 条 MMX 多 媒体 指令 。 

同年 ,Intel 公司 推出 了 基于 x86 架构 的 处 理 器 Pentium 上 ,如 图 2-16(a) 所 示 。 
Pentium I| 4 F Pentium Pro 架构 ,采用 0.35pm 的 制造 工艺 ,内 部 集成 了 750 万 个 晶体 
管 ,加 入 MMX 指令 集 , 集 合 了 32KB Fr VI LI cache 和 8 个 64 位 的 MMX 寄存 器 ,L2 
cache 是 具有 512KB 四 路 级 联 片 外 同步 突 发 式 SRAM 高 速 缓存 。 采 用 了 双 独 立 总 线 结 
构 , 其 中 一 条 总 线 连接 二 级 高 速 缓存 , 另 一 条 连接 到 内 存 。 

同时 ,AMD 公司 于 1997 年 也 推出 了 采用 0. 35pm 制造 工艺 的 处 理 器 K6 ,如 图 2-15(d) 
所 示 。K6 内 部 集成 了 880 万 个 晶体 管 ,拥有 32KB 数据 L1 cache 和 32KB 指令 L1 
cache。 继 K6 处 理 器 之 后 ,AMD 公司 于 1998 年 又 推出 了 0. 25pm 工艺 制造 的 处 理 器 
K6-2, 如 图 2-15(e) 所 示 。 它 拥有 930 万 个 晶体 管 , 有 64KB L1 cache(32KB 指令 集 和 
32KB 数据 ) 。 

1999 年 ,AMD 公司 推出 了 K7 处 理 器 ,并 将 其 正式 命名 为 Athlon, 如 图 2-15 CD Jr 
示 。 首 款 Athlon 代号 为 Thunderbird( 暴 风 鸟 ) 。K7 最 早 采 用 的 是 0. 25pm 的 制造 技术 ， 
而 后 采用 0. 18pm 铜 互 连 技术 。K7 采用 200MHz 的 外 频 , 内 建 512KB 共享 L2 cache, 
K7 加 强 了 整数 、 浮 点 运算 和 多 媒体 运算 的 能 力 。 


(a) AMD Am386DXL-40 (b) AMD Am486dx2-80 (c) AMD K5 


—— la; 
(d) AMD K6 (e) AMD K6-2 (f) AMD K7 


Æ 2-15 AMD 公司 推出 的 32 位 处 理 器 


第 2 章 并行 计 算 机 体系 结构 


1998—1999 年 间 ,Intel 公司 面向 服务 器 和 工作 站 市 场 ,推出 了 比 Pentium. 开 功 能 更 
加 强大 的 Pentium I| Xeon 处 理 器 ,如 图 2-16(b) 所 示 。Pentium I| Xeon 基于 Pentium 
了 [核心 架构 ,具有 512KB 或 1MB、400MHz 的 高 速 缓冲 存储 器 ,在 处 理 器 .RAM 和 1/O 
器 件 之 间 传 递 数据 的 高 速 总 线 , 能 提供 36 位 地 址 的 扩展 服务 器 内 存 结 构 。Pentium II 
Xeon 不 但 有 更 快 的 速度 与 更 大 的 缓存 ,更 重要 的 是 可 以 支持 多 达 4 路 或 者 8 路 的 SMP 
对 称 多 CPU 处 理 功 能 (必须 配合 专门 的 服务 器 主板 才能 使 用 ) 。 
1998 年 ,Intel 公司 面向 低 端 市 场 推出 了 一 款 廉 价 的 处 理 器 Celeron. lif] 2-16(c) 所 
示 。Celeron 起 始 时 钟 频率 是 266MHz, 开 始 没有 L2 cache, 后 来 因 整数 性 能 太 差 的 原因 
加 入 了 128KB 或 256KB 的 L2 cache。 用 于 移动 处 理 的 Celeron-M 处 理 器 则 具有 1MB 
的 L2 cache, 凭 借 其 良好 的 超频 性 能 和 便宜 的 价格 ,在 当时 赢得 了 许多 用 户 及 超频 玩家 的 
喜爱 。 
1999 年 ,Intel 公司 发 布 了 Pentium [ll 4b l2 . n] 2-16(d) 所 示 。 从 Pentium Ill JF 
始 ,英特尔 又 引入 了 70 条 新 指令 (SIMD 与 SSE) ,主要 用 于 因特网 的 流 媒 体 扩展 (提升 网 
络 演示 多 媒体 流 、 图 像 的 性 能 ) .3D \ 流 式 音频 .视频 和 语音 识别 功能 的 提升 。Pentium Ill 
有 如 下 三 种 核心 : 
* 最 初 的 版 本 是 Katmai, RH 0. 25pm 制造 工艺 ,加 入 了 SSE, 改 进 L1 cache 控制 
器 ,使 用 半 速 512KB L2 cache, 采 用 Slot 1 接口 ; 
* 最 流行 的 版 本 是 Coppermine( 铜 矿 ) ,于 1999 年 推出 ,采用 0. 18pm 制造 工艺 , 采 
用 低 延 迟 全 速 256KB L2 cache, 采 用 了 新 的 Socket 370(FC-PGA) 和 Slot 1 两 种 
接口 ; 
e 2001 年 推出 的 Tualatin( 图 拉丁 ), 采 用 0. 13pm 制造 工艺 ,采用 低 延 迟 全 速 
256KB L2 cache, 采 用 了 新 的 Socket 370(FC-PGA) 接 口 。 


(a) Intel Pentium II (b) Intel Pentium II Xeon (c) Intel Celeron 


(d) Intel Pentium III (e) Intel Pentium III Xeon (f) Intel Pentium 4 


图 2-16 Intel 公司 推出 的 Pentium I Æ Pentium 4 处 理 器 
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1999 年 ,Intel 公司 还 发 布 了 Pentium I| Xeon 处 理 器 ,如 图 2-16(e) 所 示 。Pentium 
Il Xeon 具有 2MB L2 cache, 更 大 的 缓存 有 助 于 提高 性 能 ,也 继承 了 Pentium M 3r it 
70 条 指令 集 , 以 更 好 地 执行 多 媒体 、 流 媒体 应 用 软件 。 除 了 面 对 企 业 级 市 场 以 外 ， 
Pentium [ll Xeon 加 强 了 电子 商务 应 用 与 高 级 商务 计算 的 能 力 。 在 缓存 速度 与 系统 总 线 
结构 上 ,也 有 很 大 的 进步 ,大 幅 提升 了 性 能 ,并 为 更 好 的 多 处 理 器 协同 工作 进行 了 优化 
设计 。 

2000 年, Intel 公司 发 布 了 Pentium 4 处 理 器 , 如 图 2-16 (D 所 示 。 采 用 Intel 
NetBurst 技术 的 Pentium 4, 内 部 集成 了 4200 万 个 晶体 管 ,到 了 改进 版 的 Pentium 4 
(Northwood) 更 是 集成 了 5500 万 个 品 体 管 , 并 且 开 始 采 用 0. 18pm 制造 工艺 ,初始 时 钟 
频率 就 达到 了 1. 5GHz。 其 技术 特点 是 采用 了 超级 通道 技术 ,可 使 Pentium 4 在 20 级 通 
道里 执行 软件 指令 (Pentium MRA 10 级 通道 ) ,首次 推出 的 400MHz 系统 总 线 可 加 速 数 
据 在 处 理 器 和 主 存储 器 之 间 的 传输 。 此 外 ,Pentium 4 增加 了 144 条 新 指令 以 加 速 处 理 
视频 .音频 和 3D 的 应 用 。Pentium 4 也 有 低 端 Celeron( 通 常 称 为 Celeron 4) 和 用 于 SMP 
配置 的 高 端 Pentium 4 Xeon 版 本 。2002 年 ,Intel 公司 又 推出 了 内 含 创新 的 超 线程 技术 
(hyper-threading. HT) 的 新 一 代 Pentium 4 处 理 器 。 超 线程 技术 就 是 一 个 CPU 同时 执 
行 多 个 程序 而 共同 分 享 一 个 CPU 内 的 资源 ,理论 上 像 两 个 CPU 一 样 在 同一 时 间 执 行 两 
个 线程 。 为 实现 此 目的 ,Pentium 4 需要 多 加 入 一 个 Logical CPU Pointer GE 48 Jb 3 nc 
元 ) ,而 其 余部 分 如 ALU( 整 数 运算 单元 )、FPU( 浮 点 运算 单元 )、L2 cache 则 保持 
不 变 。 

2000 年 ,AMD 公司 为 了 争夺 处 理 器 的 低 端 市 场 份额 ,在 简化 Athlon 处 理 器 的 基础 
上 推出 了 Duron 处 理 器 ,如 图 2-17(a) 所 示 。AMD 公司 前 后 共 发 布 了 基于 Spitfire、 
Morgan, Applebred 共计 三 种 核心 的 Duron 处 理 器 。Duron 内 部 集成 了 2500 万 个 晶体 
管 ,具有 200MHz 外 频 ,内 置 128KB 的 L1 cache 和 64KB 的 全 速 L2 cache, 工 作 电压 为 
1.5V。 这 些 特点 均 符 合 AMD 面 对 低 端 市 场 的 策略 , 即 低 成 本 、 低 功 耗 但 高 性 能 。 在 浮 
点 性 能 上 ,基于 K7 体系 Duron 明显 优 于 采用 P6 核心 设计 的 Intel 系列 处 理 器 。 

2001 年 ,AMD 公司 推出 了 Athlon XP(eXtreme Performance) 处 理 器 ,如 图 2-17(b) 
所 示 。Athlon XP 是 在 Thunderbird 核心 的 Athlon 基础 上 改进 而 来 ,新 增 了 对 SSE 指令 


(a) AMD Duron (b) AMD Athlon XP (c) AMD Sempron 


图 2-17 AMD 公司 推出 的 32 位 处 理 器 
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集 的 支持 , 可 以 支持 3DNow! 指令 。AMD 公司 前 后 共 发 布 了 包括 Palomino, 
Thoroughbred、Barton、Thorton 在 内 的 四 种 核心 的 Athlon XP 处 理 器 ,它们 全 部 采用 
Socket A 接口 ,采用 更 为 先进 的 OPGA 封装 技术 。 

2003 «E. AMD 公司 推出 了 Barton 处 理 器 。Barton 采用 新 款 Athlon XP 核心 ,L2 
cache 容量 增加 到 原来 的 两 倍 , 而 其 他 设计 基本 没有 变化 。 这 样 在 不 提高 频率 的 情况 下 ， 
Athlon XP 的 性 能 得 到 了 进一步 的 提高 。 

2004 年 ,AMD 公司 推出 了 Sempron 处 理 器 ,取代 了 之 前 的 Duron 系列 ,如 图 2-17(c) 
所 示 。 与 Duron 一 样 ,Sempron 也 简化 了 L2 cache。 

在 过 去 20 年 间 ,32 位 的 x86 架构 以 无 可 比拟 的 性 价 比 优势 成 为 计算 平台 的 标准 。 
但 是 由 于 x86 仍然 基于 32 位 技术 ,对 于 高 端的 企业 级 服务 器 与 工作 站 应 用 显得 力 不 从 
心 。 伴 随 着 企业 级 计算 应 用 的 发 展 ,64 位 应 用 将 越 来 越 广泛 , 令 x86 向 64 位 进行 扩展 势 
在 必 行 ,也 成 为 统一 64 位 计算 标准 的 希望 。 

Intel 公司 最 初 并 不 认为 个 人 和 移动 领域 需要 64 位 的 体系 结构 。 为 此 ,Intel 单独 发 
布 了 专 为 64 位 市 场 而 定制 的 IA-64 架构 以 及 相关 的 64 位 指令 规格 , 即 著名 的 显 式 并 行 
指令 计算 (Explicitly Parallel Instruction Computing, EPIC) ,并 于 2001 年 发 布 了 名 为 
Itantium( 安 腾 ) 的 企业 级 64 位 处 理 器 ,如 图 2-18(a) 所 示 。Itantium 确实 是 高 性 能 的 处 
理 器 ,但 是 其 IA-64 并 不 兼容 x86-32 指令 集 , 导 致 大 众 应 用 被 Intel 划分 到 64 位 的 范围 
之 外 。 次 年 ,Intel 又 推出 了 Itantium 2 ,仍然 不 兼容 x86-32 指令 集 。 

2003 年 ,AMD 推出 全 球 首 款 可 与 业内 标准 x86 兼容 的 代号 为 SledgeHammer 的 64 
位 处 理 器 AMD Opteron. ,如 图 2-18(b) 所 示 。AMD Opteron 基于 AMD K8 架构 ,兼容 以 
往 的 32 位 指令 集 , 也 就 是 说 ,AMD Opteron 不 但 是 一 颗 64 位 处 理 器 ,同时 也 是 32 位 的 。 

同年 ,AMD 推出 针对 家 用 市 场 的 64 位 处 理 器 Athlon 64 3000 十 ,如 图 2-18(c) 所 示 。 
Athlon 64 采用 Socket 754 的 简化 封装 ,拥有 一 个 单 通道 内 存 控制 器 ,可 以 与 普通 DDR 
内 存 模块 搭配 使 用 。Athlon 64 3000 十 的 时 钟 频率 达到 了 2. 0GHz,L2 cache 为 512KB。 


rm d 是 


(a) Intel Itantium (b) AMD Opteron (c) AMD Athlon 64 


图 2-18 早期 的 64 位 处 理 器 


2.2.2 单 核 处 理 器 发 展 瓶 颈 
从 Intel 公司 于 1971 年 推出 的 全 球 第 一 个 通用 型 处 理 器 4004 开始 ,在 一 块 芯片 上 集 
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成 的 晶体 管 数目 越 多 ,意味 着 运算 速度 ( 即 主 频 ) 就 更 快 。 但 是 , 面 对 不 断 涌现 的 计算 机 的 
新 兴 使 用 模式 ,用户 对 处 理 器 的 处 理 能 力 ( 即 性 能 ) 及 其 年 增幅 提出 了 更 高 的 要 求 。 
提高 处 理 器 性 能 有 两 条 途径 : 

。 提 高 处 理 器 的 主 频 ; 

。 提高 每 个 时 钟 周期 内 执行 的 指令 数 (IPC) 。 

处 理 器 架构 的 变化 可 以 改变 IPC ,效率 更 高 的 架构 可 以 提高 IPC, 从 而 提高 处 理 器 的 
性 能 。 但 是 ,通过 改良 同一 代 的 架构 来 提高 IPC. 的 幅度 却 是 非常 有 限 的 。 所 以 ,在 单 核 
处 理 器 时 代 , 通 过 提高 处 理 器 的 主 频 来 提高 性 能 就 成 了 唯一 的 手段 。 不 幸 的 是 ,并 非 可 以 
无 止境 地 提高 处 理 器 的 主 频 。 如 果 通 过 提高 主 频 来 提高 处 理 器 的 性 能 ,就 会 使 处 理 器 的 
功 耗 以 指数 (三 次 方 ) 而 非 线 性 (一 次 方 ) 的 速度 急剧 上 升 ,很 快 就 会 触及 所 谓 的 “频率 墙 ”。 
因此 , 功 耗 问题 成 了 提高 单 核 处 理 器 性 能 的 瓶 代 。 过 快 的 能 耗 上 升 ,迫使 众多 厂商 转 而 寻 
找 提高 IPC 的 方法 。 

提高 IPC 可 以 通过 提高 指令 执行 的 并 行 度 来 实现 ,而 提高 并 行 度 有 两 种 途径 : 

o 提高 处 理 器 架构 的 并 行 度 ; 

。 采用 多 核 架 构 。 

其 次 ,芯片 上 除了 晶体 管 就 是 互 连 线 , 它 的 主要 工作 是 把 一 个 晶体 管 的 处 理 结果 传输 
给 另 一 个 晶体 管 。 晶 体 管 的 集成 度 按摩 尔 定律 变 得 越 来 越 高 ,但 是 互 连 线 的 延迟 并 未 随 
之 变 快 。 在 这 种 情况 下 , 互 连 线 的 延迟 问题 就 成 了 提高 单 核 处 理 器 性 能 的 瓶颈 。 克 服 互 
连 线 延 迟 增加 的 最 好 办 法 是 使 用 一 些 较 小 的 核 组 成 一 个 多 核 的 芯片 ,而 不 是 以 往 的 单 核 
芯片 。 

随 着 晶体 管 数量 的 增加 ,芯片 设计 的 空间 、 复 杂 度 和 验证 难度 都 将 大 幅度 增加 。 如 果 
采用 多 个 同一 设计 的 处 理 器 核 , 那 么 设计 的 复杂 度 就 会 大 大 减 小 ,从 而 使 得 设计 成 本 降 
低 , 出 错 的 几率 也 相应 减 小 。 

为 此 ,多 核 处 理 器 的 出 现 是 摩尔 定律 与 物理 限制 ( 功 耗 , 互 连 线 ,设计 复杂 度 ) 相 互 作 
用 的 结果 。 处 理 器 上 的 晶体 管 数 目 越 来 越 多 ,但 却 因 功 耗 与 互 连 线 的 限制 而 不 能 直接 提 
供 很 高 的 性 能 ,在 一 个 处 理 器 中 集成 多 个 简单 的 处 理 器 核 可 以 有 效 解 决 该 问题 。 综 上 ,多 
核 处 理 器 的 出 现 是 处 理 器 发 展 到 一 定 阶 段 的 必然 产物 。 


2.2.3 单 芯片 多 处 理 器 架构 
1. 多 核 处 理 器 概述 


随 着 单个 芯片 上 晶体 管 数目 的 增加 ,美国 斯 坦 福 大 学 提出 了 Chip MultiProcessors 
(简称 CMP ,也 称 为 单 芯片 多 处 理 器 ) 。CMP 是 指 由 单个 芯片 上 的 多 个 处 理 器 核 所 构成 
的 处 理 器 系统 , 即 多 核 处 理 器 。 其 基本 思想 是 : 将 大 规模 并 行 处 理 器 中 的 SMP( 对 称 多 
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处 理 器 ) 集 成 到 同一 芯片 内 ,允许 线程 在 多 个 处 理 器 核 上 并 行 执行 。 通 过 在 多 个 CPU 核 
上 分 配 工作 负荷 ,同时 依靠 到 内 存 和 输入 输出 (1/O) 的 高 速 片 上 互 连 和 高 带宽 管道 ,多 核 
处 理 器 的 系统 性 能 得 以 提升 。 较 之 以 前 的 单 核 处 理 器 ,多 核 处 理 器 能 带 来 更 高 的 性 能 和 
生产 力 优势 ,因而 成 为 现在 一 种 广泛 普及 的 计算 模式 。 

与 使 用 线程 级 并 行 来 提高 多 核 处 理 器 性 能 相 类 似 的 另 一 种 方法 就 是 同时 多 线程 
(Simultaneous Multithreading,SMT) 技 术 。SMT 技术 是 一 种 体系 结构 模型 ,其 目的 是 
在 现 有 硬件 条 件 下 ,通过 提高 计算 能 力 来 提高 处 理 器 的 性 能 。Intel 公司 所 实现 的 SMT 
技术 就 是 超 线程 (Hyper-Threading,HT) 技 术 。HT 技术 实际 上 只 有 一 个 实际 的 物理 处 
理 器 ,但 是 从 软件 的 角度 看 ,存在 多 个 逻辑 处 理 器 。 它 支持 操作 系统 和 应 用 程序 将 多 个 线 
程 调 度 到 多 个 逻辑 处 理 器 上 ,就 像 在 多 处 理 器 系统 上 一 样 。 虽然 ,采用 超 线程 技术 能 同时 
执行 两 个 线程 ,但 它 并 不 像 两 个 真正 的 处 理 器 (每 个 处 理 器 都 具有 独立 的 资源 ) 那 样 。 当 
两 个 线程 都 同时 需要 某 一 个 资源 时 ,其 中 一 个 线程 要 暂时 停止 ,直到 另 一 个 线程 执行 完毕 
之 后 该 线程 才能 继续 执行 。 因 此 , 超 线程 的 性 能 并 不 等 同 于 两 颗 处 理 器 的 性 能 。 

从 体系 结构 的 角度 看 ,SMT 比 CMP 对 处 理 器 资源 的 利用 率 更 高 。 但 是 随 着 超大 规 
模 集成 电路 工艺 技术 的 发 展 ,晶体 管 的 尺寸 不 断 缩小 ,这 使 得 晶体 管 的 门 延迟 不 断 减少 ， 
但 互 连 线 的 延迟 却 不 断 变 大 。 当 芯片 的 尺寸 减 小 到 0. 18pm 甚至 更 小 时 , 互 连 线 的 延迟 
已 经 超过 晶体 管 的 门 延迟 ,成 为 限制 电路 性 能 提高 的 主要 因素 。 在 这 种 情况 下 ,与 SMT 
的 集中 式 结构 相 比 ,CMP 的 分 布 式 结构 由 于 全 局 信号 较 少 ,在 克服 互 连 线 的 延迟 影响 方 
面 更 具 优势 。 同 时 ,由 于 CMP 结构 是 基于 多 个 处 理 器 内 核 设计 的 ,每 个 核 都 比较 简单 ， 
对 优化 设计 非常 有 利 , 因 此 发 展 前 景 好 。 

CMP 可 以 在 不 同 的 存储 层次 上 进行 互 连 , 据 此 可 将 CMP 分 为 共享 存储 的 CMP 和 
共享 L2 cache 的 CMP, 如 图 2-19 所 示 。 通 常 , 早 期 的 CMP 采用 共享 L2 cache 的 CMP 
结构 , 即 每 个 处 理 器 核心 拥有 私有 的 L1 cache, 且 所 有 处 理 器 核心 共享 L2 cache。 但 是 共 
享 L2 cache 会 引起 不 同 核 之 间 的 共享 竞争 ,因此 发 展 到 为 每 个 内 核 设置 独立 的 L2 


cache。 


(Core 0) (Core 1) (core 0) (CCorel » 


L1 cache L1 cache L1 cache L1 cache 


L2 cache L2 cache Shared L2 cache 


Memory Memory 


(a) 共享 存储 CMP (b) 共享 L2 cache CMP 


图 2-19 多 核 处 理 器 系统 的 组 织 结构 
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根据 芯片 上 集成 的 多 个 处 理 器 核心 是 否 相 同 ,CMP 又 可 分 为 同 构 CMP 和 异 构 
CMP。 同 构 CMP 大 多 数 由 通用 的 处 理 器 组 成 ,多 个 处 理 器 内 核 相同 ,地 位 对 等 ,执行 相 
同 或 者 类 似 的 任务 。 当 前 Intel 公司 和 AMD 公司 主推 的 多 核 处 理 器 ,就 是 同 构 的 多 核 处 
理 器 。 同 构 CMP 的 典型 代表 是 美国 斯 坦 福 大 学 在 1996 年 研制 的 Hydra CMP,Hydra 集 
成 了 4 个 MIPS R3000 处 理 器 核 , 如 图 2-20 所 示 。 异 构 CMP 多 采用 “ 主 处 理 核 十 协 处 理 
核 ” 的 设计 , 除 含 有 通用 处 理 器 作为 控制 .通用 计算 之 外 ,针对 特定 的 应 用 集成 DSP, ASIC 
和 VLIW 等 协 处 理 器 来 提高 计算 的 性 能 。IBM.、 索 尼 和 东芝 联手 推出 的 Cell BE 处 理 器 
就 是 异 构 CMP 的 典型 代表 ,相关 内 容 详 见 本 书 2.4 节 。 


Centralized bus arbitration mechanisms 


CPU0 CPU 1 CPU2 CPU 3 
Ll inst. | L1 data Ll inst. | LI data L1 inst. | L1 data L1 inst. | L1 data 
cache cache cache cache cache cache cache | cache 
CPU 0 memory CPU 1 memory CPU 2 memory CPU 3 memory 
controller controller controller controller 
i i i 
Write-through bus 
(64 b) 
Read/replace bus(256 b) 
On-chip L2 cache Main memory interface — |-———*| 1/0 bus interface 
DRAM main memory 1/0 device 


图 2-20 斯坦福 的 Hydra CMP 结构 示意 图 
2. 多 核 处 理 器 发 展 历史 及 典型 架构 


早 在 1989 年 ,Intel 公司 发 布 了 80486 处 理 器 , 它 是 将 80386、80387 以 及 一 个 8KB 的 
高 速 缓存 封装 在 一 个 芯片 中 。 因 此 ,在 一 定 意义 上 .80486 可 看 作 多 核 处 理 器 的 原始 秩 
形 。 而 多 核 处 理 器 最 直接 的 发 展 始 于 IBM 公司 的 64 位 Power 4 处 理 器 (于 2001 年 第 二 
季度 推出 ,定位 于 高 端 服务 器 市 场 ), Power 4 体现 了 当时 超大 规模 集成 电路 技术 和 微 处 
理 机 设计 技术 的 最 高 水 平 。 

Power 4 是 首 款 采 用 多 核 设计 的 服务 器 处 理 器 ,其 处 理 器 架构 如 图 2-21 所 示 。 它 采 
用 先进 的 七 层 金 属 0.18um 铜 互 连 制造 工艺 ,在 400mm? 的 管 芯 上 集成 了 1 亿 ?7 千 万 个 
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晶体 管 , 芯 片 含有 两 个 时 钟 频率 为 1GHz 的 完整 CPU ,它们 共享 芯片 内 的 3 个 L2 cache 
(总 容量 为 1. 5MB) ,128MB 的 L3 cache 与 主 存 控制 逻辑 被 集成 在 管 芯 内 。 

这 之 后 ,Sun 公司 和 HP 公司 分 别 推出 了 基于 双核 架构 的 UltraSPARC 和 PA-RISC 
芯片 ,但 此 时 ,双核 心 处 理 器 架构 还 都 是 高 端的 RISC 架构 ,直到 Intel 和 AMD 相继 推出 
了 各 自 的 双核 心 CISC 处 理 器 ,双核 处 理 器 才 真正 进入 主流 的 x86 架构 。 

1) Intel 多 核 处 理 器 

2005 年 ,Intel 公司 首先 发 布 了 采用 双核 心 设计 的 Pentium D, 正 式 进 入 x86 处 理 器 
的 多 核心 时 代 。Pentium D 采用 两 个 Prescott 内 核 和 1MBX2 的 L2 cache 方 案 。 但 是 ， 
Pentium D( 如 图 2-22 所 示 ) 还 谈 不 上 是 一 套 完美 的 双核 架构 。 因 为 ,Intel 只 是 将 两 个 完 
全 独立 的 CPU 核心 集成 到 同一 芯片 上 ,通过 同一 条 前 端 总 线 与 芯片 组 相连 。 两 个 核心 
之 间 缺 乏 必要 的 协同 和 资源 共享 能 力 , 而 且 还 必须 频繁 地 对 L2 cache 作 同 步 化 刷新 操 
作 , 以 避免 两 个 核心 的 工作 步调 出 现 问题 。 同 时 ,双核 心 的 Pentium D 的 发 热量 、 功 耗 均 
非常 大 ,普通 散热 器 根本 无 法 胜任 ,这 在 当时 也 带动 了 散热 器 产业 。 尽 管 后 来 发 布 了 
65nm 的 Pentium D 系列 ,发 热量 得 到 改善 ,频率 有 所 提高 ,但 其 性 能 仍 比 不 上 AMD 的 
Athlon 64 X2 与 Athlon 64 X2 FX。 


Core0 Core 1 | 
Sa 


Shared L2 cache 


| 


Fabric controller 


i Core 1 Core 1 
Shared L3 cache | | 
1 IMBL2 IMBL2 
Memory controller i i 
1 FBS FBS 
MEE. ir mm 
Memory FBS 
图 2-21 IBM Power4 处 理 器 架构 图 2-22 Intel Pentium D 处 理 器 架构 


2006 年 初 ,Intel 公司 发 布 了 Core 双核 心 处 理 器 。Intel Core 是 在 Yonah 微 架 构 基 
础 上 改进 而 来 的 新 一 代 微 架构 。 其 最 显著 的 变化 在 于 ,为 了 提高 两 个 核心 内 部 数据 的 交 
换 效率 ,Intel Core 采用 了 共享 式 L2 cache 设计 .2 个 核心 共享 容量 高 达 4MB 的 L2 
cache。 其 内 核 采 用 较 短 的 14 级 有 效 流水 线 设计 ,每 个 核心 都 内 建 32KB 的 指令 L1 cache 
与 32KB 的 数据 L1 cache.2 个 核心 的 数据 L1 cache 之 间 可 以 直接 传输 数据 。 每 个 核心 


并 行 计 算 机 及 编程 基础 


内 建 4 组 指令 解码 单元 ,支持 微 指令 融合 与 宏 指令 融合 技术 。 在 每 个 时 钟 周期 内 ,最 多 可 
以 解码 5 条 x86 指令 ,并 拥有 改进 的 分 支 预测 功能 。 每 个 核心 内 建 5 个 执行 单元 子 系统 ， 
执行 效率 高 ,支持 EM64T 与 SSE4 指令 集 。 

2006 年 7 月 ,Intel 公司 发 布 了 Core 2 Duo 双核 心 处 理 器 ,如 图 2-23(a) 所 示 。Core 2 
Duo 是 一 个 跨 平台 的 构架 体系 ,包括 服务 器 、 桌 面 移动 三 大 版 本 。 其 中 ,服务 器 版 的 开发 
代号 为 Woodcrest, 桌 面 版 的 开发 代号 为 Conroe, 移 动 版 的 开发 代号 为 Merom。Core 2 
Duo 在 单个 芯片 上 封装 了 2. 91 亿 个 晶体 管 ,在 功 耗 降低 40% 的 同时 ,能 够 提供 满足 当前 
和 未 来 应 用 所 需 的 性 能 要 求 。 

2006 年 11 月 14 日 ,Intel 公司 在 全 球 率 先 推出 了 四 核心 处 理 器 Core 2 Extreme, 如 
图 2-23(b) 所 示 。Core 2 Extreme 包括 桌面 和 服务 器 两 个 版 本 ,其 中 前 者 代号 为 
Kentsfield ,主攻 高 端 桌面 。 后 者 代号 为 Clovertown, 主攻 双 路 服务 器 和 工作 站 领域 。 由 
此 ,PC 业 进 入 四 核心 时 代 。 虽 然 Intel 抢先 迈 入 了 四 核心 时 代 , 但 Kentsfield 和 
Clovertown 并 非 是 在 一 个 唱片 上 集成 全 部 四 颗 核 心 , 而 是 将 两 个 独立 的 双核 心 处 理 器 封 
装 在 一 起 。 

2007 年 ,Intel 公司 发 布 了 Core 2 Quad 处 理 器 ,如 图 2-23(c) 所 示 。Core 2 Quad 拥 
有 四 个 处 理 核心 ,采用 了 45nm 工艺 制程 ,其 优点 在 于 进一步 压缩 了 处 理 器 线路 与 晶体 管 
的 尺寸 ,在 获得 40 儿 性 能 提升 的 同时 , 功 耗 降低 了 40% ,这 使 得 Core 2 Quad 更 加 适合 高 
清 娱 乐 的 应 用 ,同时 具有 更 低 的 功 耗 。 


BI? 


(a) Intel Core 2 Duo (b) Intel Core 2 Extreme (c) Intel Core 2 Quad 


图 2-23 Intel Core 2 系列 处 理 器 


2008 年 11 H „Intel 公司 发 布 了 新 一 代 处 理 器 Core i7, 如 图 2-25(a) 所 示 。Core i7 虽 
然 采 用 的 是 全 新 Nehalem 架构 ,但 Nehalem 是 建立 在 Core 微 架 构 基 础 上 通过 大 幅 增 强 
与 改进 而 来 。Core i7 采用 LGA 1366 接口 ,增添 了 超 线程 (HT) L3 cache, TLB 和 分 支 
预测 的 等 级 化 、 集 成 内 存 控制 器 (IMC) QPI 总 线 和 DDR3 等 技术 。 

Core i7 采用 全 新 L3 cache 设计 ,如 图 2-24(a) 所 示 。L1 cache 和 L2 cache 为 内 核 缓 
存 , 具 有 超 低 延 迟 。 其 中 ,L1 cache 由 32KB 的 指令 缓存 与 32KB 的 数据 缓存 组 成 。Core 
i7 的 L2 cache 和 Core 2 的 L2 cache 并 不 相同 ,Core i7 的 L2 与 L1 均 为 内 核 缓 存 。L3 
cache 采用 共享 式 设计 ,被 片上 所 有 内 核 共 享 ,容量 为 8MB。 
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(a) Core i7 体系 结构 (b) Core i7 QPI 总 线 连 接 方式 


图 2-24 Intel Core i7 处 理 器 体系 结构 与 总 线 连接 方式 


L] 27 


(a) Intel Core i7 (b) Intel Core i5 (c) Intel Core i3 


图 2-25 Intel Core i 系列 处 理 器 


Core i7 的 Nehalem 架构 最 大 的 改进 在 前 端 总 线 (FSB) 上 ,传统 的 并 行 传输 方式 被 彻 
底 废 弃 , 转 而 采用 类 似 于 PCI Express 串 行 点 对 点 传输 技术 的 通用 系统 接口 (CSID) ,Intel 
称 之 为 QuickPath Interconnect(QPD) 总 线 技术 ,如 图 2-24(b) 所 示 。QuickPath 的 传输 速 
率 为 6. 4GB/s, 一 条 32 位 的 QuickPath 带宽 能 达到 25. 6GB/s。QuickPath 的 传输 速率 
是 FSB 1333M Hz 的 5 倍 ,虽然 前 者 的 数据 位 宽 较 窗 , 但 其 传输 带宽 仍然 是 后 者 的 2. 5 
倍 。 更 高 带宽 的 DDR3 内 存 加 上 三 通道 技术 的 引入 ,使 得 FSB 的 传输 带宽 已 不 能 满足 要 
求 而 成 为 系统 瓶颈 ,因此 引入 全 新 的 QPI 总 线 势 在 必 行 。 通 过 QPI 总 线 ,可 有 效 降低 处 
理 器 和 各 个 硬件 之 间 数 据 传输 的 延迟 ,能 有 效 地 提高 系统 的 性 能 。 

Core i7 拥有 集成 内 存 控制 器 (Integrated Memory Controller. IMC) ,而且 支 持 三 通 
道 的 DDR3 Pi ff ,运行 在 DDR3-1333( 支 持 XMP 技术 的 内 存 更 可 以 1600MHz 的 频率 运 
行 ), 内 存 位 宽 从 128 位 增加 到 192 位 ,总 的 峰值 带宽 可 达到 32GB/s, 为 Core 2 的 2 一 4 
倍 。 采 用 集成 内 存 控制 器 之 后 ,处 理 器 就 能 直接 与 物理 存储 器 阵列 相连 接 , 从 而 在 很 大 程 
度 上 减少 了 内 存 延 迟 的 现象 。 

Core i7 ZFF AMIER (Turbo Boost) ,这 是 一 种 基于 Nehalem 架构 的 电源 管理 
技术 ,通过 分 析 当 前 CPU 的 负载 情况 .智能 关闭 一 些 不 使 用 的 核心 ,把 能 耗 留 给 正在 使 
用 的 核心 ,并 使 它们 运行 在 更 高 的 频率 ,进一步 提高 性 能 ; 相反 , 当 程序 需要 多 个 核心 时 ， 
将 开启 相应 的 核心 ,重新 调整 频率 。 这 样 ,在 不 影响 CPU 的 TDP( 热 设计 功 耗 ) 情 况 下 ， 
能 够 将 核心 的 工作 频率 调 得 更 高 。 
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Core i7 支持 完整 的 流 式 单 指令 多 数据 流 扩 展 (Streaming SIMD Extensions 4,SSE 
4) 指 令 集 。SSE 4 共 包 含 54 条 指令 ,其 中 的 47 条 指令 已 在 45nm 的 Core 2 上 实现 , 称 为 
SSE 4.1。SSE 4. 1 指令 的 引入 ,进一步 增强 了 CPU 在 视频 编码 /解码 .图 形 处 理 以 及 游戏 等 
多 媒体 应 用 上 的 性 能 。 其 余 的 7 条 指令 在 Core i7 中 也 得 以 实现 ,被 称 为 SSE 4.2, SSE 4.2 
是 对 SSE 4. 1 的 补充 ,主要 针对 XML 文本 的 字符 串 操作 、 存 储 校 验 CRC32 的 处 理 等 。 

Intel 公司 早 在 2008 年 底 就 推出 了 Core i7 处 理 器 ,虽然 其 性 能 较 强 , 但 价格 也 非常 
昂贵 ,因此 在 当时 并 未 被 普通 用 户 普遍 接受 。 直 到 2009 年 9 月 6 日 ,Intel 公司 正式 对 外 
发 布 了 面向 中 高 端 用 户 的 Core i5 处 理 器 ,如 图 2-25(b) 所 示 。Core i5 是 基于 Nehalem 
架构 的 双核 处 理 器 ,采用 集成 内 存 控制 器 与 L3 cache 模式 ,L3 cache 的 容量 达到 了 8MB, 
采用 成 熟 的 DMI(Direct Media Interface), 只 支持 三 通道 的 DDR3 P f£. X $$ Turbo 
Boost 等 技术 ,不 支持 超 线程 技术 ,使 用 LGA1160( 后 改 为 LGA1156) 接 口 。 

2010 年 初 ,Intel 公司 正式 发 布 了 Core i3 处 理 器 ,如 图 2-25(c) 所 示 。Core i3 可 看 作 
Core i5 的 进一步 精简 版 ,最 大 的 特点 是 整合 了 GPU( 图 形 处 理 器 ) Core i3 的 CPU 部 分 
采用 双核 心 设计 ,通过 超 线程 技术 可 支持 四 个 线程 ,L3 cache 的 容量 为 4MB, 支 持 内 存 控 
制 器 、 双 通道 ,智能 加 速 、 超 线程 等 技术 ,同样 采用 LGA1156 接口 。 

2) AMD 多 核 处 理 器 

2006 年 ,AMD 也 推出 了 双核 Athlon 64 X2 处 理 器 ,如 图 2-26 所 示 。 但 与 Intel 不 同 的 
Æ, AMD 早 在 设计 K8 架构 时 就 考虑 到 了 集成 双核 的 可 能 性 ,而 且 为 了 构建 多 处 理 器 的 
弹性 互 连 架 构 ,为 K8 核心 增加 了 一 个 专门 与 其 他 CPU 


Core0 Core0 通信 的 任务 指派 单元 。 这 样 , 当 AMD 要 开发 双核 产品 

1 i 时 就 显得 比较 顺利 。 
IMBL2 IMBL2 | Athlon 64 X2 采用 512KB/1MB X 2 的 独占 式 L2 
cache 设计 ,两 个 核心 共享 Hyper Transport, Hyper 

System request queue 

| Transport 技术 通过 消除 L/O 瓶颈 来 提高 系统 带宽 , 降 
- 低 系统 延迟 增强 了 系统 的 总 体 性 能 。Athlon 64 X2 处 理 
sds 器 内 部 整合 了 DDR 内 存 控制 器 ,全 面 集成 的 DDR 内 存 


| | 控制 器 为 处 理 器 和 主板 提供 直接 连接 ,有 助 于 提高 内 存 
controller technology 的 访问 速度 。Athlon 64 X2 还 采用 了 系统 请 求 队列 
(System Request Queue,SRQ) 技 术 ,每 个 内 核 都 将 其 请 
求 放 在 SRQ 中 , 当 获 得 资源 后 ,请 求 会 被 发 送 到 相应 的 
请 求 内 核 ,所 以 其 缓存 数据 的 一 致 性 不 需要 通过 北桥 芯 
片 ,在 处 理 器 内 部 就 可 以 直接 完成 。 在 性 能 、 功 耗 、 发 热量 等 方面 ,Athlon 64 X2 系列 几 
乎 都 要 优 于 Intel 的 Pentium D, fH Athlon64 X2 处 理 器 的 价格 却 要 比 Pentium D 高 出 
不 少 ,这 使 得 用 户 更 偏向 于 Pentium DD 平台 。 


2-26 AMD Athlon 64 X2 
架构 图 
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2007 年 8 月 ,AMD 推出 了 代号 为 Barcelona 的 真 四 核 AMD Opteron 服务 器 处 理 
器 ,如 图 2-27(a) 所 示 。AMD Opteron 处 理 器 采用 了 直 连 架构 ,通过 减 小 延迟 来 改进 性 
能 。 采用 AMD PowerNow 技术 ,支持 双 动 态 电源 管理 与 智能 预 取 技术 ,集成 了 DDR2 
DRAM 控制 器 。 

2007 年 11 月 ,AMD 推出 基于 AMD K10 架构 的 Phenom X4 处 理 器 ,如 图 2-27(b) 
所 示 。 首 次 推出 的 型 号 为 Phenom 9500 和 9600. 3: Jii 2. 2/2. 3GHz,L2 cache 5j L3 cache 
的 容量 均 为 2MB, 热 设计 功 耗 95W,HT 的 总 线 频率 3. 6GHz。 它 们 采用 的 是 65nm 制造 
工艺 ,Socket AM2 十 接口 封装 ,集成 了 4. 5 亿 个 晶体 管 ,核心 的 面积 为 285mm? 。 

2008 年 3 H, AMD 推出 了 Phenom X3 Triple-Core 处 理 器 ,该 处 理 器 基于 AMD 
K10 架构 ,更 好 地 修复 了 TLB 错误 ,平台 稳定 性 的 表现 更 加 理想 。Phenom X3 Triple- 
Core 还 支持 200MHz 的 外 频 , 内 建 3X512KB 的 L2 cache 和 2MB 的 共享 L3 cache, 全 面 
提供 Hyper Transport 3. 0 总 线 ,.SSE、SSE2、SSE3、SSE4A 多 媒体 指令 集 以 及 x86-64 di 
令 集 。 为 了 核心 技术 的 一 致 性 ,在 大 部 分 的 核心 参数 特性 上 ,Phenom X3 和 更 高 端的 
Phenom X4 没有 太 大 的 区 别 。 

2008 年 底 ,AMD 公司 推出 了 代号 为 shanghai 的 45nm 四 核 AMD Opteron 服务 器 处 
理 器 ,如 图 2-27(c) 所 示 。 该 系列 处 理 器 大 幅 提 高 了 时 钟 频率 ,L3 cache 的 容量 从 
Barcelona 的 2MB 提高 到 6MB, 支 持 DDR2-800 内 存 , 性 能 比 上 一 代 Barcelona 提高 了 
35% , 功 耗 却 降低 了 3576. 

2009 年 6 月 ,AMD 公司 推出 了 代号 为 Istanbul 的 六 核 AMD Opteron 服务 器 处 理 
器 ,如 图 2-27(d) 所 示 。 六 核 AMD Opteron 服务 器 处 理 器 采用 既 有 平台 基础 ,搭配 低 成 
本 、 省 电 的 DDR2 内 存 结构 ,协助 减少 系统 升级 成 本 。 支 持 Virtualization 技术 (AMD-V) 
5j AMD-P 电源 管理 功能 。 与 前 一 代 的 四 核 处 理 器 相 比 ,每 瓦 性 能 提高 了 3496, 

2009 年 初 , AMD 公司 推出 了 采用 45nm 制造 工艺 的 Phenom I X4 处 理 器 ,如 
图 2-27(e) 所 示 。 首 批发 布 了 Phenom Il X4 940/920 与 Phenom II. X3 710/720 ,前 者 采 


E 


(a) AMD Opteron Barcelona (b) AMD Phenom (c) AMD Opteron shanghai 


| 


(d) AMD Opteron Istanbul (e) AMD Phenom II (f) AMD Athlon IL X2 
图 2-27 AMD 多 核 处 理 器 系列 


并 行 计 算 机 及 编程 基础 


用 AM2 十 封装 ,而 后 者 采用 的 是 原生 AM3 封装 技术 。 在 性 能 方面 ,Phenom II. X4 940/ 
920 基本 可 以 与 Intel. 上 一 代 准 旗舰 Q9400 系列 和 Q9500 系列 抗衡 ,但 售 价 相对 更 实惠 。 

2009 年 6 月 ,AMD 公司 将 45nm 技术 用 于 全 新 的 主流 处 理 器 设计 ,推出 了 AMD 
Athlon II X2 处 理 器 ,如 图 2-27(f) 所 示 。 首 批发 布 了 面向 普通 用 户 的 AMD Athlon II X2 
250 处 理 器 和 面向 发 烧 友 与 超频 玩家 的 AMD Phenom [| X2 550 黑 盒 版 处 理 器 。AMD 
Athlon II X2 处 理 器 的 热 设计 功 耗 (TDP) 为 65W。 在 运行 基本 任务 .高 负载 工作 和 闲置 
状态 时 ,分 别 最 多 可 节能 50%、40% 和 50%。 而 诸如 AMD Phenom I| X2 550 等 AMD 
黑 盒 版 处 理 器 ,能够 帮助 用 户 进行 控制 并 最 大 限度 地 发 挥 性 能 。 

3) IBM 的 多 核 处 理 器 

2004 年 ,IBM 公司 推出 了 Power 5 处 理 器 ,适用 于 64 位 计算 系统 ,同时 还 向 下 兼容 
32 位 系统 。 每 个 处 理 器 包含 2 个 核心 ,采用 SMT(Simultaneous Multi-threading) 技 术 ， 
每 个 核心 可 支持 2 个 线程 的 并 发 执行 ( 即 对 非 冲 突 指 令 , 每 个 时 钟 周期 都 可 保证 两 个 线程 
各 有 1 条 指令 同时 执行 )。 因 此 ,从 操作 系统 角度 来 看 ,一 个 Power 5 处 理 器 可 虚拟 成 4 
个 CPU。 这 种 多 线程 机 制 可 在 运行 时 进行 动态 地 配置 。 每 个 核心 有 自己 独立 的 L1 
cache,2 个 核心 共享 L2 cache。 可 添加 L3 cache, 但 处 理 器 内 只 集成 了 L3 控制 器 ,存储 体 
则 位 于 处 理 器 的 外 部 。 内 置 的 内 存 控制 器 有 两 个 单 向 总 线 与 内 存 相 连 , 分 别 执行 读 写 操 
VE ,读数 据 的 总 线 为 16 位 宽 , 最 高 带宽 为 17. 1GB/s, 写 数据 的 总 线 为 8 位 宽 , 最 高 带宽 为 
8.5GB/s。 每 个 核心 在 每 个 时 钟 周期 内 可 同时 执行 8 条 指令 ,指令 可 乱 序 发 射 。 该 款 处 
理 器 支持 指令 级 并 行 、 任 务 级 并 行内 存 级 并 行 以 及 核心 级 并 行 。 

2007 年 ,IBM 公司 推出 了 Power 6 处 理 器 。 其 核心 和 缓存 结构 与 Power 5 相同 ,但 
增加 了 一 个 内 存 控制 器 ,把 读 操作 与 写 操作 彻底 分 开 , 使 得 16 位 读 操作 的 带宽 可 达 
51. 2GB/s.8 位 写 操作 的 带宽 可 达 25. 6GB/s, 增 加 了 支持 所 谓 短 向 量 操作 SIMD 指令 的 
AltiVec 机 制 , 此 外 还 增加 了 专门 的 检查 点 和 重启 动 电路 以 提高 错误 检测 和 恢复 功能 。 
该 款 CPU 可 支持 指令 级 并 行 .SIMD 指令 ,任务 级 并 行 、 内 存 级 以 及 核心 级 并 行 。 

4) Sun 的 多 核 处 理 器 

2005 年 Sun 公司 推出 了 UltraSPARC T1 处 理 器 ,如 图 2-28(a) 所 示 。UltraSPARC 
TIER 8 个 核心 ,每 个 核心 可 支持 4 个 线程 。 因 此 ,从 操作 系统 角度 来 看 ,UltraSPARC 
T1 可 被 看 作 32 个 虚拟 CPU。 其 主要 的 应 用 目标 为 处 理 高 吞吐 率 负载 ,如 Web 服务 、 事 
务 处 理 等 。 所 有 CPU 核心 共享 一 个 浮 点 计算 部 件 ,因此 此 款 CPU 并 不 适合 高 性 能 
计算 。 

2007 年 Sun 公司 推出 了 UltraSPARC T2 处 理 器 ,如 图 2-28(b) 所 示 。 其 核心 结构 与 
UltraSPARC T1 类 似 ,每 个 核心 可 支持 8 个 线程 并 发 ,为 操作 系统 调度 方便 ,8 个 线程 被 
划分 为 2 个 静态 组 。 从 操作 系统 角度 来 看 ,UltraSPARC T2 可 被 看 作 64 个 虚拟 CPU. 
T2 的 每 个 核心 分 别 配置 了 独立 的 浮 点 单元 ,但 在 每 个 时 钟 周期 内 仅 允 许 一 个 核心 使 用 。 
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核心 内 部 有 私有 的 LI cache, 所 有 的 核心 共享 L2 cache, 处 理 器 内 置 4 个 内 存 控制 器 ,可 
提供 最 高 42. 6GB/s 的 读 操作 带宽 和 21. 3GB/s 的 写 操 作 带 宽 。 该 款 处 理 器 可 支持 任务 
级 并 行内 存 级 并 行 以 及 核心 级 并 行 。 


图 图 


(a) Sun UltraSPARC TI (b) Sun UltraSPARC T2 


图 2-28 Sun UltraSPARC T 系 列 处 理 器 


5) 其 他 专用 多 核 处 理 器 

这 里 列 出 的 并 不 是 市 场 化 .产品 化 特别 成 功 的 处 理 器 ,但 这 些 技术 可 能 代表 了 未 来 处 
理 器 系统 设计 的 一 些 重 要 发 展 趋势 。 

(1) Cray XMT/Treadstorm 

Threadstorm 多 核 处 理 器 可 支持 多 达 128 个 线程 ,每 个 CPU 核心 内 设 32 个 通用 寄 
存 器 。 在 1 个 时 钟 周期 内 ,处 理 器 即 可 切换 线程 。 该 款 处 理 器 擅长 运行 那些 数据 与 指令 
的 局 部 性 较 差 的 并 行程 序 , 那 些 在 分 布 式 存储 系统 上 人 性 能 较 差 的 并 行程 序 可 在 该 系统 上 
取得 较 高 的 性 能 。 每 个 Cray XMT 系统 可 包含 多 达 8192 个 Threadstorm 处 理 器 ,每 个 
处 理 器 峰值 计算 速度 为 1. 5GFLOPS。 其 处 理 器 接口 与 AMD Opteron 兼容 。 

(2) IBM BlueGene/P 

IBM BlueGene/P 多 核 处 理 器 是 IBM 公司 专门 为 BlueGene/P 系统 开发 的 专用 处 理 
器 ,属于 System-on-chip 结构 。 它 集成 了 4 个 32 位 PowerPC 450 核心 、1 个 内 存 控制 器 、 
1 个 网 卡 以 及 1 个 超 立 方 体 互联 网 接口 ,4 个 核心 在 片 内 有 共享 缓存 ,可 运行 传统 的 共享 
存储 的 程序 (如 Pthreads 或 OpenMP 等 )。 各 核心 的 频率 为 850MHz, 在 一 个 时 钟 周期 内 
可 执行 4 条 指令 。 因 此 ,每 个 CPU 核心 的 峰值 计算 速度 为 3. 4GFLOPS。 它 的 峰值 速度 
虽然 不 及 Intel 的 Core 2( 每 个 核心 的 频率 为 4GHz, 峰 值 计算 速度 为 12GFLOPS) ,但 其 
功 耗 却 大 大 低 于 Intel Core 2 CPU( 每 个 处 理 器 4 个 核心 的 功 耗 仅 16W) ,因此 非常 适合 
安装 在 BlueGene/P 这 样 采用 大 规模 CPU 的 系统 中 。 

(3) IBM Cyclops-64 

Cyclops-64 处 理 器 内 置 80 个 核心 ,每 个 CPU 核心 都 支持 2 个 线程 的 并 发 执行 ,2 个 
线程 共享 1 个 浮 点 运算 单元 (在 一 个 时 钟 周期 内 ,每 个 浮 点 运算 单元 可 执行 2 条 浮 点 运 
算 )。 以 500MHz 主 频 运行 ,每 个 处 理 器 可 提供 80GFLOPS 的 峰值 计算 能 力 。 处 理 器 内 
置 了 内 存 控制 器 、 网 卡 以 及 超 立 方 体 的 互联 网 接口 (包括 CPU 核心 在 内 的 所 有 这 些 逻辑 
电路 都 通过 一 个 内 置 于 处 理 器 内 部 的 96 口 7 级 非 阻 塞 交 叉 开 关 互 连 在 一 起 ) 。 每 个 
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CPU 核心 还 有 一 个 私有 内 存 空 间 , 可 用 软件 配置 的 办 法 ,来 指定 该 私有 内 存 空间 究 竞 是 
核心 私 用 还 是 作为 整个 处 理 器 的 全 局 共享 内 存 . 或 者 两 者 的 组 合 。 该 款 处 理 器 还 有 一 个 
特别 的 地 方 , 即 把 存储 层次 的 物理 结构 直接 暴露 给 上 层 应 用 程序 进行 控制 ,因此 不 提供 传 
统 通用 处 理 器 所 拥有 的 虚拟 内 存 机 制 , 而 仅 提供 了 一 种 简单 的 基于 段 的 内 存 保护 机 制作 
为 内 核 级 程序 的 保护 措施 。 

(4) SiCortex 

SiCortex 集成 了 6 个 64 位 的 MIPS 核心 .1 个 内 存 控制 器 1 个 高 性 能 网 卡 、1 个 千 兆 
以 太 网 卡 和 1 个 PCIE 接口 (也 就 是 说 ,实际 上 集成 了 一 个 机 群 结 点 所 需 的 除 内 存 、 硬 盘 
之 外 的 所 有 部 件 ) ,每 个 核心 的 峰值 计算 速度 约 为 1GFLOPS。 在 一 个 配置 1 个 处 理 器 和 
AGB 内 存 的 结 点 中 ,6 个 核心 共享 两 个 内 存 通 道 共计 10. 6GB/s 的 带宽 , 功 耗 为 12W 左 
右 。 目 前 最 大 规模 的 SiCortex 系统 为 在 1 个 机 柜 中 安装 了 972 个 结 点 (5832 核心 )。 

(5) ClearSpeed CSX600 

ClearSpeed CSX600 处 理 器 包含 了 96 颗 核心 ,每 个 核心 拥有 128KB 本 地 内 存 , 所 有 
核心 共享 一 个 内 置 的 128KB 片 内 内 存 , 峰 值 计 算 速 度 可 达 33GFLOPS, 功 耗 约 10W。 
CSX600 执行 SIMD 数据 并 行 指令 ,移植 了 若干 数学 库 / 工 具 供 并 行程 序 调用 。 该 款 处 理 
器 可 作为 通用 CPU 的 加 速 部 件 , 以 外 接 卡 的 形式 集成 到 系统 中 。 

(6) Tilera Tile64 

Tilera Tile64 是 以 商业 化 推广 MIT 的 RAW 为 目标 设立 的 新 兴 公 司 的 产品 。RAW 
处 理 器 内 集成 64 个 核心 ,以 条 块 化 (tiled) 方 式 使 用 mesh 网 络 进行 互 连 ,集成 了 1 个 
10GB 的 以 太 网 卡 、1 个 PCLE 接口 .4 个 内 存 控制 器 和 1 个 软件 可 配置 的 1/0 接口 。64 
个 核心 可 被 划分 为 若干 个 cache 关联 组 ,每 个 组 均 可 独立 运行 操作 系统 。 该 款 处 理 器 尚 
未 集成 浮 点 计算 部 件 , 因 此 尚 不 支持 大 规模 的 科学 计算 ,但 在 一 些 嵌 入 式 系统 中 有 很 好 的 
应 用 ,如 数字 视频 的 处 理 、 网 络 路 由 等 。64 个 核心 的 功 耗 约 为 15 一 22W, 提 供 每 秒 约 为 
1. 9 万 亿 次 操作 的 处 理 能 力 。 

(7) SPI Storm-1 

SPI Storm-1 是 为 商业 化 推广 Stanford 的 STREAM 处 理 器 而 设立 的 新 兴 公司 所 开 
发 的 产品 。 该 款 处 理 器 也 面向 嵌入 式 应 用 市 场 ,目前 在 高 性 能 数值 计算 领域 还 没有 太 强 
的 竞争 力 。 一 个 处 理 器 内 包含 一 个 通用 的 MIPS 核心 和 一 个 多 道 (Multi-Lane) 
STREAM 单元 。STREAM 单元 受 运 行 嵌 入 式 Linux 的 MIPS 核心 管理 , 它 不 运行 任何 
操作 系统 。STREAM 编程 的 关键 在 于 将 求解 的 问题 分 解 为 若干 数据 流 , 并 为 之 定义 相 
关 的 执行 模块 以 及 模块 之 间 的 关联 关系 。 其 原理 与 向 量 机 的 指令 类 似 , 只 是 扩展 成 可 为 
一 组 数据 流 定义 一 个 操作 集合 。STREAM 编译 器 负责 产生 任务 之 间 的 关联 图 与 执行 策 
略 。 目 前 最 新 款 处 理 器 为 STREAM-1 SP16HP-G220, 其 主 频 为 700MHz, 集 成 了 16 个 
Lane, 峰 值 计 算 能 力 为 2. 24X102 次 乘法 操作 / 秒 。 虽 然 目 前 还 不 支持 浮 点 计算 ,但 SPI 
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Storm 处 理 器 预 留 了 集成 浮 点 处 理 部 件 的 机 制 ,为 在 将 来 进入 高 性 能 数值 计算 领域 做 好 
了 准备 。 

(8) Ambric Am2045 

Ambric Am2045 也 是 一 个 以 开发 大 规模 并 行 处 理 器 阵列 (Massively parallel 
processor arrays,MPPA) 为 目的 的 新 兴 商 业 公 司 推出 的 产品 。 该 处 理 器 从 开发 伊始 就 把 
支持 消息 传递 编程 模型 作为 其 设计 的 核心 理念 。 可 以 说 MPPA 是 将 传统 的 MPP 大 型 机 
进行 芯片 化 的 一 种 尝试 ,只 是 使 用 点 对 点 的 互联 网 将 处 理 器 核心 (在 原来 MPP 系统 中 ， 
通过 共享 内 存 进行 通信 ) 加 以 连接 ,新 的 处 理 器 中 各 个 核心 可 混合 使 用 分 布 式 内 存 和 共享 
内 存 。 其 原型 产品 Am2045 处 理 器 集成 了 336 个 32 位 RISC 核心 ,每 个 核心 具有 私有 的 
2KB 内 存 。 各 个 核心 可 独立 运行 程序 ,通过 片 内 内 置 的 软件 可 配置 多 级 互联 网 与 其 他 核 
心 通 信 , 可 使 用 Java 或 汇编 进行 编程 。 处 理 器 主 频 为 350MHz, 峰 值 计算 速度 为 6X 10 
次 乘法 运算 / 秒 ,目前 尚 不 具备 浮 点 运算 部 件 ,因此 在 高 性 能 计算 领域 的 应 用 还 不 成 熟 。 


2.2.4 ”多核 处 理 器 关键 技术 


虽然 单 芯片 多 处 理 器 架构 利用 多 处 理 器 优势 所 带 来 的 诸多 好 处 ,让 处 理 器 的 性 能 成 
倍 地 增加 。 但 随 之 而 来 的 是 将 原来 系统 级 的 一 些 问 题 引 入 了 处 理 器 内 部 。CMP 的 关键 
技术 如 下 所 示 。 


1. 核心 结构 的 选择 


目前 多 核 处 理 器 的 核心 结构 主要 有 同 构 和 异 构 两 种 。 同 构 结 构 采 用 对 称 设计 ,原理 
简单 ,硬件 上 较 易 实现 。 当 前 主流 的 双核 、 四 核 处 理 器 基本 上 都 采用 同 构 结构 。 同 构 设 计 
的 问题 在 于 : 

。 随 着 核心 数量 的 不 断 增多 ,如 何 保持 各 个 核心 的 数据 一 致 性 ; 

。 如 何 满足 核心 的 存储 访问 和 I/O 访问 需求 ; 

。 如 何 选 择 一 个 各 方面 性 能 均衡 、 面 积 较 小 以 及 功 耗 较 低 的 处 理 器 ; 

。 如 何 均 衡 若干 处 理 器 的 负载 和 任务 协调 等 。 

与 同 构 结 构 相 比 , 异 构 的 优势 是 通过 组 织 不 同 特点 的 核心 来 优化 处 理 器 内 部 结构 , 实 
现 处 理 器 性 能 的 最 优化 ,而 且 能 有 效 地 降低 功 耗 。 但 是 异 构 结 构 也 存在 如 下 难点 : 
搭配 哪 几 种 不 同 的 核心 ,核心 之 间 任 务 如 何 分 配 以 及 如 何 实现 ; 
结构 是 否 具有 良好 的 扩展 性 ,还 是 受到 核心 数量 的 限制 ; 

如 何 设计 和 实现 处 理 器 指令 系统 ,因为 不 同 核心 所 用 的 指令 系统 对 多 核 处 理 器 的 
实现 也 是 很 重要 的 。 不 同 核心 是 采用 相同 的 指令 系统 还 是 不 同 的 指令 系统 ,能 否 
运行 操作 系统 等 ,也 是 需要 考虑 的 内 容 。 
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2. 多 级 缓存 设计 与 一 致 性 问题 


随 着 半导体 工艺 的 发 展 ,在 CMP 系统 中 处 理 器 和 主 存 间 的 速度 差距 越 来 越 突 出 , 因 
此 必须 使 用 多 级 缓存 来 缓解 。 目 前 有 共享 L1 cache 的 CMP、 共 享 L2 cache 的 CMP 以 及 
共享 主 存 的 CMP。 但 是 在 CMP 结构 中 ,共享 缓存 或 乌有 缓存 就 优 熟 劣 , 需 不 需要 在 一 块 
芯片 上 建立 多 级 缓存 以 及 建立 几 级 缓存 ,每 一 级 缓存 的 大 小 是 多 少 , 缓 存 对 整个 芯片 尺 
寸 功 耗 \ 布 局 的 影响 等 问题 都 对 CMP 的 性 能 以 及 运行 效率 等 有 很 大 的 影响 , 须 认真 研 
究 和 探讨 。 

另 一 方面 ,多 级 缓存 又 引发 了 一 致 性 问题 。 采 用 何 种 缓存 一 致 性 模型 和 机 制 都 将 对 
CMP 整体 性 能 产生 重要 影响 。 在 传统 多 处 理 器 系统 结构 中 广泛 采用 的 缓存 一 致 性 模型 
有 顺序 一 致 性 模型 和 弱 一 致 性 模型 等 。 与 之 相关 的 缓存 一 致 性 协议 主要 有 基于 总 线 监 
听 、` 基 于 目录 和 面向 编译 的 缓存 一 致 性 协议 等 。 目 前 的 CMP 系统 大 多 采用 基于 总 线 监 
听 的 缓存 一 致 性 协议 。 


3. 核 间 通 信 技 术 


CMP 处 理 器 的 各 CPU 核心 执行 各 自 的 程序 代码 ,这 些 程序 之 间 有 时 需要 进行 数据 
共享 与 同步 ,因此 其 硬件 结构 必须 支持 核 间 通信 。 高 效 的 通信 机 制 是 CMP 处 理 器 高 性 
能 的 重要 保障 。 

目前 比较 主流 的 片上 高 效 通信 机 制 有 如 下 两 种 : 

。 基于 总 线 共 享 的 缓存 结构 ,以 斯 坦 福 大 学 的 Hydra 处 理 器 为 代表 ; 

* 基于 片上 互 连 的 结构 ,以 麻 省 理工 学 院 的 RAW 处 理 器 为 代表 。 

基于 总 线 共享 的 缓存 结构 是 指 每 个 CPU 内 核 拥有 共享 的 L2 或 L3 cache, 用 于 保存 
比较 常用 的 数据 ,并 通过 连接 核心 的 总 线 进行 通信 。 这 种 系统 的 优点 是 结构 简单 ,通信 速 
度 高 。 缺 点 是 基于 总 线 的 结构 可 扩展 性 较 差 。 

基于 片上 互 连 的 结构 是 指 每 个 CPU 核心 具有 独立 的 处 理 单元 和 缓存 ,各 个 CPU 核 
心 通过 交叉 开关 或 片上 网 络 等 方式 连接 在 一 起 。 各 个 CPU 核心 间 通 过 消息 通信 。 这 种 
结构 的 优点 是 可 扩展 性 好 ,数据 带宽 有 保证 。 缺 点 是 硬件 结构 复杂 ,软件 改动 较 大 。 

未 来 的 核 间 通信 技术 究竟 采用 哪 种 方式 ,还 是 两 者 结合 取长补短 ,都 是 将 来 需要 考虑 的 
问题 。 例 如 ,在 全 局 范围 采用 片上 网 络 而 局 部 采用 总 线 方式 ,来 达到 性 能 与 复杂 性 的 平衡 。 


4. 总 线 设计 


在 传统 处 理 器 中 ,缓存 不 命中 或 访 存 事件 都 会 对 CPU 的 执行 效率 产生 负面 影响 ,而 
总 线 接口 单元 (BIU) 的 工作 效率 会 决定 此 影响 的 程度 。 当 多 个 CPU 核心 同时 要 求 访问 
内 存 或 多 个 CPU 核心 内 的 私有 缓存 同时 出 现 缓存 不 命中 事件 时 ,BIU 对 这 些 访 问 请 求 


第 2 章 并行 计算 机 体系 结构 


的 仲裁 机 制 以 及 对 外 存 访问 的 转换 机 制 的 效率 决定 了 CMP 系统 的 整体 性 能 。 因 此 , 寻 
找 高 效 的 BIU 结构 ,将 多 核心 对 主 存 的 单字 访问 转化 为 更 为 高 效 的 Burst( 独 发 ) 访 问 。 
同时 ,寻找 使 CMP 处 理 器 整体 效率 达到 最 优 的 一 次 Burst 访问 字 的 数量 模型 ,以 及 寻找 
高 效 多 端口 BIU 访问 的 仲裁 机 制 , 将 是 CMP 处 理 器 研究 的 重要 内 容 。 


5. 任务 调度 ,中断 处 理 和 同步 互 斥 设计 


对 于 多 核 CPU ,优化 操作 系统 的 任务 调度 算法 是 保证 效率 的 关键 。 任 务 调度 算法 一 
般 有 局 部 队列 调度 和 全 局 队列 调度 。 

。 局 部 队列 调度 是 指 操作 系统 为 每 个 CPU 内 核 维护 一 个 局 部 的 任务 等 待 队列 , 当 
系统 中 有 一 个 CPU 内 核 空闲 时 , 便 从 该 核心 的 任务 等 待 队列 中 选取 恰当 的 任务 
执行 ,该 方法 的 优点 是 任务 基本 上 无 须 在 多 个 CPU 核心 间 切 换 , 有 利于 提高 
CPU 核心 的 局 部 缓存 命中 率 ; 

。 全 局 队列 调度 是 指 操作 系统 维护 一 个 全 局 的 任务 等 待 队列 , 当 系 统 中 有 一 个 
CPU 核心 空闲 时 ,操作 系统 就 从 全 局 任务 等 待 队 列 中 选取 就 绪 任 务 开始 在 此 核 
心 上 执 行 。 该 方法 的 优点 是 CPU 核心 的 利用 率 较 高 。 目 前 多 数 多 核 CPU 操作 
系统 采用 的 是 基于 全 局 队列 的 任务 调度 算法 。 

多 核 的 中 断 处 理 和 单 核 有 很 大 不 同 。 多 核 的 各 处 理 器 之 间 需 要 通过 中 断 方式 进行 通 

信 , 所 以 多 个 处 理 器 之 间 的 本 地 中 断 控 制 器 和 负责 仲裁 各 核心 之 间 中 断 分 配 的 全 局 中 断 
控制 器 也 需要 封装 在 芯片 内 部 。 

另外 ,多 核 CPU 是 一 个 多 任务 系统 。 由 于 不 同 任务 会 竞争 共享 资源 ,因此 需要 系统 

提供 同步 与 互 斥 机 制 。 而 传统 的 用 于 单 核 的 方法 并 不 能 满足 多 核 ,需要 利用 硬件 提供 的 
“ 读 -修改 - 写 ” 的 原子 操作 或 其 他 同步 互 斥 机 制 来 保证 。 


6. 低 功 耗 设计 


半导体 工艺 的 迅速 发 展 使 处 理 器 的 集成 度 越 来 越 高 ,同时 处 理 器 表面 温度 也 变 得 越 
来 越 高 并 呈 指 数 级 增长 。 目 前 , 低 功 耗 和 热 优化 设计 已 经 成 为 处 理 器 研究 中 的 核心 问题 。 
CMP 的 多 核心 结构 决定 了 其 相关 的 功 耗 研究 是 一 个 至 关 重 要 的 课题 。 

低 功 耗 设计 是 一 个 多 层次 问题 ,需要 同时 在 操作 系统 级 、 算 法 级 、 结 构 级 .电路 级 等 多 
个 层次 上 进行 研究 。 每 个 层次 的 低 功 耗 设计 方法 实现 的 效果 不 同 , 抽 象 层 次 越 高 , 功 耗 和 
温度 降低 的 效果 越 明 显 。 


7. 存储 器 墙 


为 了 使 处 理 器 内 的 核心 充分 地 工作 ,最 起 码 的 要 求 是 处 理 器 能 提供 与 处 理 器 性 能 相 
匹配 的 存储 器 带宽 ,虽然 内 部 缓存 的 容量 能 解决 一 些 问 题 ,但 随 着 性 能 的 进一步 提高 , 必 
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须 有 其 他 一 些 手段 来 提高 存储 器 接口 的 带宽 ,如 增加 单个 管 脚 带宽 的 DDR, DDR2, 
QDR、XDR 等 。 同 样 ,系统 也 必须 有 能 提供 高 带宽 的 存储 器 。 所 以 ,处 理 器 芯片 对 封装 
的 要 求 也 越 来 越 高 ,虽然 封装 的 管 脚 数 每 年 以 20% 的 数目 提升 ,但 还 不 能 完全 解决 问题 ， 
而 且 还 带 来 了 成 本 提高 的 问题 ,为 此 ,怎样 提供 一 个 高 带宽 、 低 延迟 的 接口 带宽 ,是 必须 解 
决 的 一 个 重要 问题 。 


8. 可 靠 性 及 安全 性 设计 


随 着 技术 革新 的 发 展 ,处 理 器 的 应 用 渗透 到 现代 社会 的 各 个 层面 ,但 是 在 安全 性 方面 
却 存在 着 很 大 的 隐患 。 一 方面 ,处 理 器 结构 自身 的 可 靠 性 低下 ,由 于 超 微细 化 与 时 钟 设计 
的 高 速 化 、 低 电源 电压 化 ,设计 上 的 安全 系数 越 来 越 难 以 保证 ,故障 的 发 生 率 逐 渐 升 高 。 
另 一 方面 ,来 自 第 三 方 的 恶意 攻击 越 来 越 多 ,手段 越 来 越 先进 ,已 成 为 具有 普遍 性 的 社会 
问题 。 当 前 ,提高 可 靠 性 与 安全 性 在 计算 机 体系 结构 研究 领域 备 受 注 目 。 


9. 平衡 设计 原则 


平衡 设计 原则 是 指 在 芯片 的 复杂 度 .内 部 结构 ,性 能 、 功 耗 扩展 性 和 部 件 成 本 等 各 个 
方面 做 一 定 的 权衡 ,在 设计 过 程 中 要 从 整体 结构 的 角度 去 权衡 各 个 具体 的 结构 问题 ,不 能 
为 了 单纯 地 获得 某 一 方面 的 性 能 而 导致 其 他 方面 的 问题 。 在 多 核 处 理 器 设计 工程 中 ,项 
目 人员 需 要 坚持 平衡 设计 的 原则 。 因 为 ,往往 在 减少 一 个 方面 问题 的 同时 又 增加 了 另 一 
个 方面 的 问题 ,所 以 在 设计 过 程 中 要 仔细 权 衔 对 某 些 问题 的 解决 方法 ,尽量 采用 简单 . 易 
于 实现 、 成 本 低廉 而 且 对 整体 性 能 影响 不 大 的 设计 。 微 处 理 结 构 设 计 的 重点 不 在 于 其 中 
某 一 个 细节 采用 多 么 复杂 或 性 能 表现 较 好 的 设计 ,而 是 在 于 整体 的 设计 目标 。 当 然 在 具 
体 的 设计 中 ,不 能 只 是 简单 的 选择 ,应 该 是 建立 在 科学 的 实验 和 模拟 分 析 基 础 上 来 选择 或 
平衡 。 因 此 ,在 多 核 处 理 器 设计 中 ,要 以 科学 分 析 的 数据 结果 为 基础 ,坚持 合理 .平衡 的 设 
计 原 则 。 


10. 应 用 软件 开发 


多 核 处 理 器 在 利用 多 个 核心 的 并 行 执行 能 力 来 提高 处 理 器 运算 性 能 的 同时 ,也 给 软 
件 开发 者 带 来 了 麻烦 。 当 前 的 困境 是 众多 应 用 并 没有 利用 多 核 的 性 能 潜力 ,多 核 的 性 能 
优势 没有 体现 。 

多 核 系 统 下 的 并 行 编程 ,主要 是 开发 多 核 的 线程 级 并 行 性 ,但 是 已 有 的 并 行 编程 模 
式 、 编 程 语言 并 不 完全 适合 多 核 环境 ,不 能 将 多 核 的 多 线程 并 行 潜力 完全 发 挥 出 来 ,例如 
OpenMP, MPI 和 并 行 C 等 。 因 此 ,许多 研究 机 构 和 公司 一 方面 对 现 有 的 并 行 编程 模型 
和 编程 语言 进行 修改 或 改进 。 例 如 ,改进 支持 共享 存储 结构 的 OpenMP, 采 用 OpenMP 十 
MPI 的 混合 编程 模型 和 Pthread 多 线程 编程 模型 等 ; 另外 ,各 类 研究 机 构 也 正在 积极 研 
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制 开发 新 一 代 的 并 行 编程 模型 和 并 行 编程 语言 ,例如 ,事务 存储 编程 模型 和 Intel 公司 的 
Ct 编程 模型 等 。 

同时 ,为 了 将 已 有 的 串 行 程序 部 署 到 多 核 系统 上 ,要 么 重新 编写 并 行 代码 ,要 么 研发 
面向 多 核 结构 的 自动 并 行 化 工具 ,使 得 这 些 应 用 能 在 多 核 处 理 器 系统 中 高 效 执行 。 


2.2.5 多 核 处 理 器 未 来 发 展 趋势 


多 核 处 理 器 产生 的 直接 原因 是 蔡 代 单 核 处 理 器 ,解决 单 核 处 理 器 发 展 的 瓶颈 ,但 发 展 
多 核 处 理 器 的 深层 次 原因 还 是 为 了 满足 人 类 社会 对 计算 性 能 的 无 止境 需求 。 目 前 ,阻碍 
多 核 性 能 向 更 高 水 平 发 展 的 问题 很 多 ,可 真正 束缚 多 核 处 理 器 发 展 的 是 低 功 耗 和 应 用 开 
发 两 个 问题 。 因 此 ,有 必要 在 原 有 技术 的 基础 上 探索 新 的 思路 和 方法 来 解决 上 述 问题 。 

为 了 实现 高 性 能 、 低 功 耗 和 高 应 用 性 ,多 核 处 理 器 的 几 种 可 能 发 展 趋势 如 下 : 

CD 在 多 核 上 将 集成 更 多 结构 简单 、 低 功 耗 的 核心 。 为 了 满足 性 能 的 需求 ,通过 集成 
更 多 核心 来 提高 性 能 是 必然 选择 ,但 是 核心 的 结构 也 必须 考虑 。 因 为 如 果 核 心 结 构 过 于 
复杂 , 随 着 核心 数量 的 增多 ,不 仅 不 能 提升 性 能 ,还 会 带 来 互 连 线 延 迟 增加 和 功 耗 变 大 等 
问题 。 

D 异 构 多 核 是 一 个 重要 的 发 展 方向 。 研 究 表明 ,将 结构 功能、 功 耗 ,运算 性 能 各 不 
相同 的 多 个 核心 集成 在 芯片 上 ,并 通过 任务 划分 将 不 同 的 任务 分 配给 不 同 的 核心 ,让 每 个 
核心 处 理 自己 擅长 的 任务 。 这 种 异 构 组 织 方式 比 同 构 的 多 核 处 理 器 执行 任务 更 有 效率 ， 
更 能 实现 资源 的 最 优 配 置 ,而 且 能 够 降低 整体 功 耗 。 

(3) 多 核 处 理 器 将 采用 更 高 效 的 片上 互 连 机 制 。 随 着 处 理 器 内 核心 数目 的 增加 , 传 
统 的 共享 总 线 机 制 将 无 法 保持 有 效 性 能 ,这 就 要 求 多 核心 之 间 能 够 实现 高 效 的 点 对 点 片 
内 互 连 , 同 时 智能 地 将 应 用 程序 映射 到 这 些 互 连 拓扑 上 并 使 之 高 效 运行 ,这 是 操作 系统 、 
编译 器 等 系统 软件 面临 的 迫切 任务 。 不 仅 CPU 核心 之 间 需 要 特殊 的 互 连 拓扑 ,系统 内 
存 与 处 理 器 的 连接 结构 同样 也 需要 相应 的 拓展 ,传统 的 均匀 随机 访问 方式 将 被 非 均匀 访 
问 方式 所 取代 。 

(4) 大 规模 高 性 能 可 编程 器 件 的 出 现 ,推动 了 现场 可 编程 门 阵列 (Fieid Programmable 
Gate Arrays. FPGA) 技 术 的 发 展 。 在 芯片 上 应 用 FPGA 技术 有 高 灵活 性 、 高 可 靠 性 、 高 
性 能 、 低 能 耗 和 低 成 本 等 多 种 优势 。 处 理 器 设计 人 员 注 意 到 了 这 种 优势 ,并 将 FPGA 的 
可 重 构 技 术 应 用 到 多 核 结构 上 ,让 多 核 结构 具备 可 重 构 性 和 可 编程 性 。 这 种 创新 思路 大 
大 提高 了 多 核 的 通用 性 和 运算 性 能 ,使 处 理 器 既 有 了 通用 处 理 器 的 通用 性 ,又 有 专用 集成 
电路 的 高 性 能 ,使 之 兼 具 了 灵活 性 ,高 性 能 .高 可 靠 、 低 能 耗 等 优势 。 

(5) 多 核心 平台 下 并 行程 序 的 开发 也 是 一 个 重要 的 研究 方向 。 多 核心 平台 的 出 现 必 
然 使 得 传统 的 串 行程 序 向 并 行 和 并 发 程序 转变 。 在 并 行 /并 发 程序 开发 中 ,最 大 的 难点 在 
于 其 行为 的 不 确定 性 ,特别 是 并 行 / 并 发 访问 共享 资源 将 会 在 大 规模 多 核 系统 中 成 为 开发 
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瓶颈 和 性 能 瓶颈 ,而 由 此 带 来 的 调试 .优化 等 方面 的 问题 则 使 得 应 用 程序 开发 面临 更 大 的 
困难 。 在 过 去 的 几 十 年 间 , 工 业界 和 学 术 界 从 未 间断 过 对 提高 并 行程 序 开发 效率 的 研究 ， 
但 迄今 为 止 还 未 找到 一 种 真正 有 效 的 解决 办 法 。 可 以 预见 ,未 来 硬件 平台 的 发 展 , 必 然 要 
求 系 统 中 集成 简化 编程 和 减少 错误 发 生 的 硬件 多 辑 , 并 有 针对 地 发 展 相应 的 编程 模型 ,这 
一 领域 已 有 一 些 初 见 端倪 的 趋势 ,如 事务 内 存 (Transaction Memory) 以 及 一 些 硬件 同步 
SR. 


p ideis 


— or 


多 核 处 理 器 通过 采用 简化 单 核 结 构 .增加 核心 数目 和 片上 部 件 等 结构 设计 方法 提高 
了 处 理 器 的 性 能 ,适应 了 工艺 发 展 和 应 用 的 需求 ,逐步 成 为 应 用 的 主流 。 多 核 技术 的 进 一 
步 发 展 需要 解决 低 功 耗 和 应 用 开发 等 重要 问题 ,而 这 些 问 题 的 解决 是 一 个 综合 考虑 的 结 
果 。 总 的 来 看 ,多 核 正 向 着 众 核 方向 发 展 ,并 呈现 多 核心 . 低 功 耗 . 异 构 和 可 重 构 等 几 个 方 
面 的 发 展 趋势 。 虽 然 现 阶段 多 核发 展 仍 面临 众多 挑战 ,但 多 核 技术 的 未 来 值得 期 待 。 


2.3 GPU 


GPU 的 全 称 是 Graphic Processing Unit, 即 图 形 处 理 单元 。 它 的 主要 功能 就 是 进行 
浮 点 运算 、 定 点 处 理 和 着 色 处 理 。 得 益 于 游戏 业 的 高 速 发 展 ,GPU 技术 的 发 展 达到 了 前 
所 未 有 的 速度 ,其 更 新 换代 的 时 间 大 大 小 于 CPU。GPU 的 功能 更 新 非常 迅速 ,平均 半年 
就 有 新 一 代 的 GPU 诞生 ,运算 速度 也 越 来 越 快 。 例 如 ,NVIDIA 的 G80 核心 的 GPU 拥 
有 128 个 标量 浮 点 运算 单元 ,在 计算 速度 方面 GPU 已 走 在 了 CPU 的 前 面 ,并 且 GPU 的 
价格 也 相对 低廉 ,使 得 运用 GPU 进行 科学 运算 具有 很 高 的 性 价 比 。 

GPU 是 显卡 的 核心 ,相当 于 CPU 在 计算 机 中 的 作用 。GPU 决定 了 该 显卡 的 档次 和 
大 部 分 性 能 ,同时 也 是 2D 显卡 和 3D 显卡 的 区 别 依据 。2D 显卡 在 处 理 3D 图 像 和 特效 时 
主要 依赖 CPU 的 处 理 能 力 , 称 为 “ 软 加 速 "。3D 显卡 则 将 三 维 图 像 和 特效 处 理 功 能 集成 
在 显示 芯片 内 , 称 为 “硬件 加 速 ”。 目 前 ,市场 上 大 多 采用 NVIDIA 和 AMD 两 家 公司 的 。 

NVIDIA 公司 在 1999 年 发 布 GeForce 256 时 ,率先 提出 了 GPU 的 概念 。GPU 使 显 
卡 减少 了 对 CPU 的 依赖 ,并 进行 原本 属于 CPU 的 部 分 工作 ,尤其 是 在 3D 图 形 处 理 时 。 
GPU 所 采用 的 核心 技术 有 多 边 形 转换 与 光源 处 理 (Transform and Lighting. 硬件 


位 泻 染 引擎 等 ,而 硬件 T&L 技术 可 以 说 是 GPU 的 标志 。 
目前 ,GPU 已 不 再 局 限于 3D 图 形 处 理 了 ,GPU 通用 计算 技术 的 发 展 已 引起 业界 的 
不 少 关注 。 事 实证 明 ,在 浮 点 运算 、 并 行 计算 等 方面 ,GPU 可 以 提供 数 十 售 乃 至 于 上 百倍 
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T CPU 的 性 能 。GPU 通用 计算 方面 的 标准 目前 有 OpenCL, CUDA, ATI STREAM, 
其 中 ,OpenCL( 全 称 Open Computing Language) 是 第 一 个 开放 式 、 免 费 的 面向 异 构 系统 
通用 目的 并 行 编程 标准 ,也 是 一 个 统一 的 编程 环境 。 


2.3.1 GPU 概述 


目前 ,通用 计算 领域 通常 采用 的 处 理 器 是 CPU。 传 统 意 义 上 来 说 ,GPU 主要 负责 图 
形 泻 染 等 图 形 方面 的 计算 。 

在 过 去 20 年 间 ,增加 处 理 器 芯片 上 晶体 管 的 数量 ,提高 运行 频率 是 CPU 性 能 提高 的 
主要 方式 。 然 而 ,从 2003 年 以 来 ,这 种 趋势 发 生 了 变化 。 不 断 提高 的 CPU 频率 带 来 了 高 
功 耗 和 高 发 热量 问题 ,使 得 主流 CPU 的 频率 止步 于 4GHz, 并 向 单 芯片 多 处 理 器 (Chip 
MultiProcessors,CMP) 即 多 核 处 理 器 方向 发 展 。 在 2005 年 ,Intel 和 AMD 正式 向 主流 
消费 级 市 场 推 出 了 双核 心 的 CPU 产品 ,在 2007 年 又 推出 了 4 核心 的 CPU ,按照 各 厂商 
的 发 展 路 线 图 ,大 约 每 2 年 单 芯片 上 的 核心 数目 将 翻 倍 。 伴 随 着 并 行 架 构 的 不 断 发 展 ,并 
行 算法 也 在 不 断 成 熟 与 完善 。 但 由 于 市 场 变化 和 研制 成 本 等 多 方面 的 原因 ,多 核 CPU 
的 每 个 核心 仍 基于 以 往 单 核 CPU 的 设计 ,保留 了 例如 乱 序 执行 等 很 多 单 核 时 代 的 复杂 
执行 方式 ,使 得 其 对 科学 计算 等 问题 的 计算 能 力 提 高 较为 有 限 。 

GPU 最 初 用 于 固定 的 功能 。 随 着 时 间 的 推移 ,这 些 图 形 芯片 的 可 编程 性 日 益 增加 ， 
并 开始 在 非 图 形 的 高 性 能 计算 领域 被 大 量 使 用 。 在 此 基础 上 ,NVIDIA 公司 推出 了 第 一 
款 GPU。 在 1999—2000 年 间 ,计算机 科学 家 与 诸如 医疗 成 像 和 电磁 等 领域 的 研究 人 员 ， 
开始 使 用 GPU 来 运行 通用 的 计算 ,并 发 现 GPU 具备 的 卓越 浮 点 性 能 可 为 众多 科学 应 用 
程序 带 来 显著 的 性 能 提升 。 从 图 2-29 可 以 看 出 GPU 的 发 展 速度 已 经 远 远 超过 CPU, 
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图 2-29 GPU 计算 性 能 走势 图 
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由 图 2-29 可 见 ,GPU 的 浮 点 运算 速度 达到 CPU 的 若干 倍 。 近 年 来 ,GPU 的 性 能 每 
一 年 就 可 以 翻 倍 , 大 大 超过 了 CPU 遵循 的 摩尔 定律 (每 18 一 24 月 性 能 翻 倍 ) 的 发 展 速度 。 
带 来 这 种 数据 处 理 能 力 差别 的 主要 原因 在 于 ,GPU 最 早 为 并 行 处 理 大 量 三 维 计算 机 图 形 
学 中 的 顶点 和 像素 数据 而 设计 ,但 近年 来 为 通用 计算 进行 了 一 系列 的 改进 。 其 并 行 体系 
结构 决定 了 GPU 非常 擅长 以 并 行 方式 运行 高 运算 强度 的 应 用 。 图 2-30 为 同等 市 场 价格 
的 CPU 和 GPU 的 浮 点 运算 单元 数量 对 比 图 。 
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图 2-30 CPU 与 GPU 运算 单元 数量 对 比 


NVIDIA 公司 的 GeForce 8800 GTX 包含 了 128 个 流 处 理 器 ,HD 2900 包含 了 320 
个 流 处 理 器 。 这 些 流 处 理 器 可 以 支持 浮 点 运算 、 分 支 处 理 、 流 水 线 、 单 指令 流 多 数据 流 
(Single Instruction Multiple Data, SIMD) 等 技术 。 以 NVIDIA 公司 的 G80 为 例 , 与 G80 
的 GPU 包含 的 128 个 核心 相 比 ,目前 多 核心 CPU 的 核心 数目 明显 要 少 得 多 。 虽 然 ， 
CPU 每 个 核 的 运算 能 力 高 于 GPU 上 的 每 个 核心 ,但 后 者 凭借 更 多 核心 的 并 行使 得 其 总 
的 计算 能 力 更 强 。 与 使 用 CPU 相 比 ,使 用 GPU 进行 运算 具有 如 下 优势 : 

(D GPU 通常 具有 更 大 的 内 存 带宽 。 例 如 NVIDIA 公司 的 GeForce 8800 GTX H. 
有 超过 50GB/s 的 内 存 带宽 ,而 目前 高 端 CPU 的 内 存 带 宽 则 在 10GB/s 左右 。 

(2) GPU 具有 更 多 的 执行 单元 。 例 如 GeForce 8800 GTX 具有 128 个 流 处 理 器 
(StreamProcessors) ,频率 为 1. 35GHz。CPU 的 频率 通常 较 高 ,但 是 执行 单元 的 数目 则 
要 少 得 多 。 

CD 和 高 端的 CPU 相 比 ,显卡 的 价格 较为 低廉 。 例 如 目前 一 块 GeForce 8800 GTX 
CA 512MB 内 存 ) 的 价格 与 一 个 2.4GHz 四 核心 CPU 的 价格 相当 。 

当然 ,使 用 GPU 进行 运算 也 存在 如 下 缺点 : 

(D GPU 的 运算 单元 数量 很 多 ,因此 对 不 能 高 度 并 行 化 的 工作 ,所 能 带 来 的 帮助 并 
不 明显 。 

(2) GPU 目前 通常 只 支持 32 位 浮 点 数 , 且 多 半 不 能 完全 支持 IEEE 754 标准 ,有 些 
运算 的 精确 度 可 能 较 低 。 目 前 ,许多 GPU 并 没有 独立 的 整数 运算 单元 ,因此 整数 运算 的 
效率 较 差 (NVIDIA 公司 基于 新 一 代 CUDA 架构 的 Fermi 已 经 解决 了 这 个 问题 ,在 后 面 
将 会 提 及 ) 。 
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(3) GPU 通常 不 具有 分 支 预测 等 复杂 的 流程 控制 单元 ,因此 对 于 具有 复杂 分 支 的 程 
序 , 效 率 会 比较 差 。 

总 体 来 说 ,GPU 类 似 于 流 多 处 理 器 ,适合 一 次 进行 大 量 相同 的 工作 。CPU 则 擅长 处 
理 分 支 较 多 、 关 联 性 较 强 的 任务 。 


2.3.2 GPU 发 展 简 介 


从 功能 和 架构 方面 来 讲 ,GPU 经 历 了 三 个 阶段 的 发 展 。 

。 第 一 代 GPU (1999 年 之 前 ): 从 CPU 分 离 出 部 分 功能 ,实现 硬件 加 速 。GE 
(Geometry Engine) 作 为 其 代表 ,只 能 起 到 3D 图 像 处 理 的 加 速 作 用 ,不 具有 软件 
编程 的 特性 。 

第 二 代 GPU(1999 一 2002 年 ): 硬件 加 速 得 到 加 强 并 提供 有 限 的 编程 性 。 

1E 1999 年 ,NVIDIA GeForce 256 将 T&L(Transform and Lighting) 等 功能 从 
CPU 中 分 离 出 来 ,实现 了 快速 变换 。 

在 2001 4E, NVIDIA 和 ATI 分 别 推出 了 GeForce 3 和 Radeon 8500 ,图 形 硬 件 的 
流水 线 被 定义 为 流 处 理 器 ,出 现 了 顶点 级 可 编程 性 ,同时 像素 级 也 具有 有 限 的 编 
程 性 ,但 GPU 的 编程 性 比较 有 限 。 

第 三 代 GPU(2002 年 之 后 ) : 方便 的 编程 环境 (如 CUDA). 

在 2002 年 ,ATI 发 布 了 Radeon 9700, 

在 2003 年 ,NVIDIA 推出 了 GeForce FX, 

在 2006 年 , NVIDIA 与 ATI 分 别 推出 了 CUDA (Computer Unified Device 
Architecture, 统 一 计算 架构 ) 编 程 环境 和 CTM (Close To the Metal) 编程 环境 。 
2007 年 ,CUDA 正式 发 布 。 

2008 年 ,NVIDIA 发 布 了 支持 CUDA 1. 1 的 GeForce 9 系列 GPU ,以 及 支持 
CUDA 1.3 的 GT200 GPU, NVIDIA 在 GT200 中 引入 了 大 量 的 重要 改进 ,使 得 
GT200 不 仅 具有 很 高 的 处 理 能 力 和 存储 器 带宽 ,用 于 通用 计算 时 的 可 编程 性 和 
灵活 性 也 更 加 出 色 。 同 年 ,NVIDIA 发 布 了 Tegra 系列 产品 ,正式 进入 移动 处 理 
器 市 场 。 

随 着 GPU 可 编程 性 的 不 断 增强 ,特别 是 CUDA 等 编程 环境 的 出 现 , 使 得 GPU 通用 
计算 编程 的 复杂 性 大 幅度 降低 。 由 于 可 编程 性 、 功 能 、 性 能 的 不 断 提 高 和 完善 ,GPU 已 演 
化 为 一 个 新 型 的 可 编程 的 高 性 能 计算 资源 。 目 前 ,NVIDIA 正在 大 力 推广 用 于 通用 计算 
领域 的 GPU,GPU 已 经 开始 全 面向 通用 计算 的 方向 发 展 。 


2.3.3 GPU 硬件 架构 
GPU 通常 用 于 图 形 处 理 领 域 , 在 此 将 主要 介绍 用 于 通用 计算 领域 的 GPGPU。 通 过 
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单 指令 多 数据 指令 类 型 来 支持 数据 并 行 计算 。 在 单 指令 多 数据 流 的 结构 中 ,单一 控制 部 
件 向 每 条 流水 线 分 派 指 令 ,同样 的 指令 被 所 有 处 理 部 件 同时 执行 。 例 如 ,GPU 包含 了 多 
组 SM(Streaming Multiprocessor) ,每 组 处 理 器 有 多 个 SP(Streaming Processor) ,但 每 组 
处 理 器 只 包含 一 个 指令 单元 (Instruction Unit) 。 

以 R600 为 例 ,DPPA 是 真正 执行 通用 计算 的 功能 单元 ,如 图 2-31 所 示 。 
R600 的 数据 并 行 阵列 拥有 4 个 SIMD 引擎 ,它们 同时 处 理 一 个 内 核 程序 ; 
。 每 个 SIMD 引擎 又 由 16 个 线程 处 理 器 组 成 ,这 16 个 线程 处 理 器 共用 1 个 PC, 所 
以 它们 之 间 是 完全 同步 执行 的 ; 
线程 分 配 处 理 器 是 一 个 超 长 指令 字 处 理 单元 , 它 包 括 4 个 标量 计算 核 和 1 个 超级 
计算 核 ; 
。 1 个 线程 处 理 器 通过 阻塞 多 线程 的 方式 同时 运行 4 个 线程 ,如 图 2-31 所 示 。 


线程 分 配 处 理 器 
w 4 4 | 
指令 流 与 
控制 流 
SIMD 
ost l v ann CL aime 
超级 计算 单元 =] 标量 计算 单元 
通用 寄存 器 


图 2-31 数据 并 行 处 理 器 阵列 结构 


经 过 上 述 分 析 可 以 发 现 ,R600 拥有 320( 即 4X16X5) 个 计算 核 ,可 以 同时 运行 256( 即 
4X16X4) 个 线程 ,如 此 的 计算 核 规模 和 线程 规模 显然 可 以 提供 较为 强大 的 计算 能 力 。 

通过 一 个 简单 的 例子 ,将 两 个 包含 有 1000 个 元 素 的 数组 进行 相 加 ,来 说 明 CPU 执行 
与 GPU 执行 的 差别 。 如 果 使 用 CPU 进行 处 理 , 将 进行 不 断 的 循环 操作 ,把 两 个 数组 中 
的 对 应 元 素 相 加 以 产生 新 的 数组 元 素 。 就 这 个 例子 来 说 ,在 CPU 上 执行 必须 进行 1000 
次 循环 操作 。 如 果 使 用 GPU 进行 处 理 ,GPU 会 首先 定义 一 个 数组 的 加 操作 ,并 且 为 数组 
中 的 每 一 个 元 素 生 成 一 个 加 法 程序 的 实例 。 然 后 创建 1000 个 加 法 线程 ,多 个 线程 同时 执 
行 。 使 用 具有 240 个 内 核 的 GTX 280 仅 需 要 5 个 时 钟 周期 就 可 完成 。 

GPU 通用 计算 方面 的 编程 环境 目前 有 OpenCL, CUDA, ATI STREAM, 其 中 ， 
OpenCL 是 第 一 个 开放 式 、 免 费 的 面向 异 构 系 统 通用 目的 并 行 编程 环境 ,便于 软件 开发 人 
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员 为 高 性 能 计算 服务 器 、 桌 面 计算 系统 、 手 持 设 备 编写 高 效 、 简 洁 的 代码 ,而 且 广 泛 适用 于 
多 核心 处 理 器 (CPU)、 图 形 处 理 器 (GPU)、Cell 类 型 架构 以 及 数字 信号 处 理 器 (DSP) 等 
其 他 并 行 处 理 器 。 在 游戏 ,娱乐 .科研 、 医 疗 等 多 个 领域 都 有 广阔 的 发 展 前 景 。AMD- 
ATI 以 及 NVIDIA 现在 的 产品 都 支持 OpenCL., 

NVIDIA 也 会 继续 加 强 对 包括 C 语言 在 内 的 其 他 语言 的 支持 ,NVIDIA CUDA C H 
前 还 是 唯一 针对 GPU 的 runtime C 语言 环境 (是 指 GPU 可 直接 执行 该 语言 )。NVIDIA 
CUDA C 语言 还 会 进一步 发 展 , 不 断 会 有 新 的 版 本 推出 。NVIDIA CUDA C 语言 将 与 
OpenCL,DX11 等 共存 。 本 书 的 第 3 章 将 会 以 CUDA 为 例 作 进一步 的 介绍 。 


2.3.4 GPU-CPU 异 构 体 系 结构 


CPU 与 GPU 一 般 经 北桥 通过 AGP 或 PCI-E 总 线 进行 连接 ,各 自 拥 有 独立 的 外 部 
存储 器 (分 别 为 内 存 与 显存 ) 。 在 一 些 芯片 组 中 ,没有 采用 独立 的 显存 芯片 ,而 是 使 用 了 集 
成 GPU, 它 直接 从 内 存 中 划分 出 一 块 区 域 作为 显存 。Intel 和 AMD 提出 的 CPU-GPU ih 
合 产品 还 准备 直接 将 CPU 和 GPU 通过 快速 通道 互 连 (QPI) 或 高 速 串 行 总 线 CHT) 进 行 
连接 ,并 集成 在 一 块 芯片 内 。 

1E CPU-GPGPU 这 样 的 异 构 体 系 结构 中 ,GPGPU 作为 CPU 的 协 处 理 器 完成 图 形 
计算 和 通用 计算 ,GPGPU 以 外 部 设备 的 形式 通过 PCI-E 总 线 与 CPU 进行 通信 。CPU 
和 GPU 各自 拥有 自己 的 存储 系统 ,它们 之 间 通 过 DMA 操作 实现 数据 的 传递 。 作 为 主 处 
理 器 的 CPU 采用 目前 广泛 使 用 的 单 核 或 多 核 处 理 器 ,其 体系 结构 不 再 介绍 。 

R600 包含 的 主要 部 件 有 数据 并 行 阵列 (DPPA) ,命令 处 理 器 、 片 上 内 存单 元 ,存储 控 
制 器 。 数 据 并 行 处 理 器 阵列 负责 执行 各 种 泻 染 和 计算 程序 ,命令 处 理 器 负责 管理 
GPGPU 的 整个 运行 过 程 ,片上 内 存单 元 是 GPGPU 的 本 地 存储 器 件 , 存 储 控制 器 完成 对 
系统 主 存 和 本 地 内 存 中 数据 的 访问 ,如 图 2-32 所 示 。 
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2.3.5 Fermi 架构 


2010 4E, NVIDIA 推出 了 代号 为 Fermi 的 新 一 代 CUDA JR EJ, Fermi 拥有 超过 
30 亿 个 晶体 管 、 最 多 512 个 CUDA Core, 可 实现 超级 计算 特性 与 性 能 。 与 基于 CPU 
的 传统 服务 器 相 比 ,其 成 本 仅 为 1/10, 功 耗 仅 为 1/20。Fermi 的 硬件 结构 如 图 2-33 
所 示 。 
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图 2-33 Fermi 硬件 架构 


Fermi 架构 大 大 提高 了 GPU 通用 计算 的 实用 性 , 它 具 有 如 下 特点 : 

。 更 多 .更 标准 化 的 流 处 理 器 。 在 G80/GT200 中 ,都 是 由 8 个 流 处 理 器 构成 一 组 流 
多 处 理 器 (SMD) ,而 Fermi 增加 到 由 32 个 流 处 理 器 构成 一 组 流 多 处 理 器 , 流 处 理 
器 的 数目 最 多 为 16 组 ( 少 于 GT200 的 30 组 ) ,但 流 处 理 器 的 总 量 则 从 240 个 增 
至 512 个 ,多 于 GT200 的 240 个 ,是 G80 的 4 倍 。 所 有 流 处 理 器 现在 都 符合 
IEEE 754-2008 浮 点 算法 和 完整 的 32 位 整数 算法 (在 过 去 , 仅 能 模拟 32 位 整数 算 
法 , 仅 能 计算 24 位 整数 乘法 ) 。 同 时 .引入 的 还 有 熔 加 运算 (Fused Multiply Add/ 
FMA) ,每 次 循环 操作 单 精度 数 512 个 、 双 精度 数 256 个 。 符 合 业界 标准 ,计算 结 
果 不 会 产生 意外 偏差 。 

双 精 度 浮 点 的 性 能 得 到 大 大 提高 。 峰 值 计算 速度 可 以 达到 单 精 度 浮 点 的 1/2 ,而 
在 过 去 只 有 1/8, 而 AMD 现在 也 不 过 1/5( 比 如 AMD 的 Radeon HD5870 的 单 精 
度 峰 值 计 算 速 度 为 2.72TFLOPS、 双 精度 峰值 计算 速度 为 544GFLOPS)。 

* ECCCERROR CHECK AND CORRECT) 支 持 。AMD Cypress 可 以 检测 内 存 总 
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线 上 的 错误 , 却 不 能 修正 。 但 是 ,NVIDIA Fermi 的 寄存 器 文件 ,一 级 缓存 、 二 级 
缓存 .DRAM 均 支持 ECC 错误 校 验 。 

统一 的 64 位 内 存 寻 址 。 在 以 前 的 架构 里 ,各 种 不 同 的 载 人 指令 ,取决 于 内 存 类 型 
如 本 地 、 共 享 、 全 局 内 存 分 别 使 用 不 同 的 指令 。 这 就 给 使 用 带 来 了 麻烦 。 而 
NVIDIA Fermi 提供 统一 的 地 址 空间 ,内 存 的 地 址 取决 于 存储 的 位 置 : 最 低位 是 
本 地 地 址 ,然后 是 共享 地 址 , 剩 下 的 是 全 局 地 址 。 

每 组 SM 都 有 16KB 的 共享 内 存 。 这 些 共享 内 存 由 其 中 的 8 个 SP 使 用 ,注意 它 
们 不 是 缓存 ,而 是 由 软件 管理 的 内 存 ,可 以 写 入 / 读 取 数据 。 为 了 满足 应 用 程序 和 
通用 计算 的 需要 ,NVIDIA Fermi 引入 了 真正 的 缓存 ,每 组 SM 拥有 容量 为 64KB 
的 可 配置 内 存 , 可 分 为 16KB 的 共享 内 存 与 48KB 的 一 级 缓存 或 者 48KB 的 共享 
内 存 与 16KB 的 一 级 缓存 ,能 够 灵活 地 满足 不 同类 型 程序 的 需要 。NVIDIA 
Fermi 的 整个 芯片 拥有 一 个 容量 为 768KB 的 共享 二 级 缓存 ,执行 原子 内 存 操作 比 
GT200 快 5~20 fi. 

更 短 的 程序 切换 开销 。 传 统 GPU 内 核 在 工作 的 时 候 会 忽略 程序 之 间 切 换 带 来 的 
开销 ,在 大 规模 的 数学 计算 中 ,这 个 开销 是 相当 大 的 。NVIDIA Fermi 的 出 现 改 
变 了 这 种 状况 ,并 将 程序 切换 的 开销 减少 到 约 20—25&m. 3X XEBK 3$ Fermi 在 某 
些 环境 下 会 表现 出 更 优秀 的 性 能 。 

全 新 的 Debug 支持 。 在 过 去 , 当 需 要 进行 Debug 的 时 候 ,GPU 的 整个 工作 状态 
将 被 暂停 ,然后 基于 CPU 的 Debuger 将 读 取 GPU 的 寄存 器 状态 线程 状态 和 显 
存 内 容 ,完成 Debug 之 后 再 恢复 GPU 的 工作 状态 。 目 前 ,NVIDIA Fermi 的 
Debug 不 再 需要 CPU 的 介入 ,所 有 工作 将 由 GPU Trap Handler 软件 来 实现 ， 
GPU Trap Handler 还 可 处 理 CPU 代码 。 

新 的 指令 集 架构 (ISA)。NVIDIA Fermi 的 指令 集 架 构 被 大 大 扩充 , 它 支持 
DX11 .OpenCL C++、Visual Studio 等 ,当然 也 支持 C、Fortran 与 OpenGL 3. 1/3. 2, 
SM 的 变化 。SM 的 执行 不 再 以 half-warp 为 单位 : 传统 的 线程 模式 中 ,Kernel 的 
执行 是 以 warp 为 单位 ,每 个 warp 包含 32 个 thread, 这 些 thread 分 成 两 组 ,每 次 
执行 一 组 ,也 就 是 half-warp。 在 Fermi 架构 中 ,在 每 个 SM 前 端 均 有 2 个 warp 
调度 器 和 2 个 独立 分 配 单元 ,它们 与 SM 的 其 他 部 分 完全 独立 , 均 可 在 1 个 时 钟 
周期 内 选择 发 送 一 半 warp ,而 且 这 些 线程 可 来 自 于 不 同 的 warp。 分 配 单元 和 执 
行 硬件 之 间 有 一 个 完整 的 交叉 开关 (Crossbar) ,每 个 单元 均 可 向 SM 内 的 任意 单 
元 分 配 线程 。 从 G80 开始 ,SM 单元 被 提出 ,到 GF100 时 已 发 展 到 了 第 三 代 , 此 
时 每 个 SM 均 有 32 个 SP, 为 G80/G92/GT200 的 SM 中 处 理 器 数量 的 4 倍 , 如 
图 2-34 所 示 。 
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图 2-34 NVIDIA GF100 架构 的 SM 单元 


第 2 章 ”并行 计算 机 体系 结构 


2.3.6 GPU 集群 
1. GPU 集群 概述 及 发 展 


与 传统 CPU 集群 一 样 ,GPU 同样 可 以 用 来 搭建 集群 以 提高 计算 性 能 。 从 早期 的 
GPU 加 速 工作 站 到 异 构 型 CPU/GPU 集群 ,再 到 现在 基于 单 块 集成 电路 的 CPU-GPU 
服务 器 ,GPU 集群 已 经 开始 在 高 性 能 计算 领域 发 挥 着 重要 的 科研 及 商业 作用 。 相 对 于 传 
统 的 CPU 集群 架构 ,GPU 集群 架构 可 提供 成 本 更 低 、 体 积 和 功 耗 更 小 .性 能 更 强 的 并 行 
计算 解决 方案 。 中 国 首 台 千 万 亿 次 / 秒 超级 计算 机 “天 河 一 号 ”就 采用 了 NVIDIA Tesla 
M2050 组 成 了 庞大 的 GPU 集群 ,其 处 理 内 核 总 数 超过 20 万 颗 ,并 在 第 36 届 超 级 计算 机 
Top500 排名 中 夺魁 ,成 为 当时 世界 上 最 快 的 计算 机 。 

斯 坦 福 大 学 的 Mike Houston 已 经 在 GPU 集群 方面 工作 了 一 段 时 间 , 他 所 在 的 小 组 
就 正在 尝试 用 并 行 GPU 和 HMM(Hidden Markov Models 隐形 马尔 科 夫 模型 ) 进 行 蛋白 
EWR., HMM 编码 被 重 写 ,将 其 在 GPU 上 运行 ,之 后 再 被 修正 ,数据 库 搜索 被 分 成 多 
个 GPU 集群 结 点 。 总 体 来 讲 ,这 并 不 是 一 个 特别 理想 的 集群 ,因为 每 个 搜索 都 是 独立 
的 ,因此 全 部 搜索 并 非 并 行 。 但 是 每 个 结 点 的 性 能 都 很 不 错 , 大 约 达到 了 单一 CPU 的 
10 一 40 倍 ,更 重要 的 是 ,并 行 编 码 扩 展 得 非常 好 。 

SUNY Stony Brook 的 虚拟 化 实验 室 ,在 GPU 分 布 式 图 像 和 分 布 式 计算 领 域 有 着 较 
深 的 研究 。 并 在 2004 年 发 布 了 Lattice Boltzmann Method (LBM) GPU 集群 的 研究 报 
告 , 该 报告 是 纽约 时 代 广 场 的 空气 污染 模拟 状况 。 这 个 小 组 在 研究 的 时 候 , 采 用 了 GPU 
作为 集群 中 的 结 点 来 重 写 LBM 编码 。 因 为 GPU 不 能 直接 访问 网 络 界 面 ,数据 在 传输 时 
转换 成 CPU 能 识别 的 编码 ,而 在 结 点 处 则 被 转换 回 GPU 能 够 识别 的 编码 。 通 过 这 种 方 
法 ,程序 员 得 到 了 4.6 倍 于 CPU 的 速度 提升 。 


2. GPU 集群 硬件 架构 与 组 织 方式 


与 单 GPU 环境 相 比 ,多 GPU 环境 下 程序 编写 复杂 度 将 会 提高 。 需 要 考虑 到 当前 的 
GPU 的 能 力 .GPU 程序 的 资源 占用 情况 .GPU 程序 需要 与 CPU 交互 的 数据 量 等 。 在 通 
信 方 面 则 需要 考虑 任务 分 配 、 数 据 交换 、 使 用 完 余 计算 代 蔡 数据 传输 等 问题 。 随 着 
NVIDIA 公司 陆续 发 布 新 款 服务 器 与 GPU 超级 计算 机 ,多 GPU 的 并 行 执行 技术 日 趋 重 
要 。 与 传统 CPU 程序 的 并 行 执行 不 同 ,GPU 程序 的 并 行 执行 可 被 分 为 三 级 : 

。 第 一 级 是 GPU 内 部 的 并 行 执行 ,也 就 是 前 面 讨论 的 单 GPU 程序 ; 

。 第 二 级 是 GPU 5 CPU 的 并 行 执行 和 协作 ; 

。 第 三 级 则 是 多 GPU 之 间 的 并 行 执行 。 

GPU 集群 可 以 有 两 种 组 建 方式 : 
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。 在 一 台 计 算 机 内 ,1 个 CPU 带 多 个 GPU; 

。 在 多 台 计 算 机 内 ,每 台 计 算 机 都 是 1 个 CPU 对 应 1 个 或 多 个 GPU。 

GPU 之 间 的 通信 只 能 通过 所 连接 的 CPU。 第 一 种 方式 实际 上 是 第 二 种 方式 的 特 
例 ,GPU 自己 只 能 同 本 机 的 CPU 通信 ,而 不 能 同 网 络 上 其 他 GPU 通信 。NVIDIA 的 
SLI 技术 就 是 基于 第 一 种 方式 的 GPU 集群 。 不 过 SLI 技术 本 身 只 能 支持 图 形 运算 ,而 且 
还 是 Windows 平台 特 有 的 。 位 于 不 同 CPU 上 的 GPU 之 间 的 通信 问题 目前 还 是 GPU 
集群 方面 一 个 正在 探索 的 问题 。GPU 集群 的 连接 方式 如 图 2-35 所 示 。 


CPU 1 -| CPU2 | 一 | CPU3 GPU 5, 


图 2-35 GPU 集群 的 组 建 方式 


LL 


GPU 本 身 就 是 一 个 高 度 并 行 化 的 设备 , 它 的 执行 方式 类 似 于 用 刷子 刷 墙 , 要 刷 出 纯 
色 的 墙 效率 会 非常 高 ,但 较 难 剧 出 多 变 的 图 案 ,这 点 读者 可 以 体会 一 下 。 本 节 以 NVIDIA 
公司 的 GPU 系列 产品 为 主要 内 容 , 从 架构 方面 介绍 了 GPU/GPGPU 的 发 展 、 新 型 的 
GPU 体系 结构 和 GPU 集群 的 基本 概念 ,并 简单 介绍 了 GPU 集群 的 相关 知识 。 在 阅读 
本 节 后 应 该 对 GPU 的 功能 、 结 构 特 性 有 一 定 的 了 解 。 


2.4 Cell BE 


Cell BE (Cell Broadband Engine) 处 理 器 是 基于 CBEA (Cell Broadband Engine 
Architecture) 架 构 的 首 个 多 核 体系 结构 。Cell BE 处 理 器 除了 主要 应 用 于 索尼 的 Play 
Station 3(PS3) 游 戏 主机 上 ,还 应 用 在 3D 绘图 .影音 多 媒体 与 科学 运算 等 方面 。 

在 2000 年 ,Sony Toshiba 和 IBM 三 家 公司 开始 探讨 开发 下 一 代 游 戏 机 。IBM 主要 
进行 微 处 理 器 开发 , Toshiba 作为 大 批量 生产 与 开发 的 技术 伙伴 ,Sony 作为 内 容 提供 商 。 
Cell BE 处 理 器 的 设计 目标 是 : 

。 出色 的 性 能 ,尤其 在 游戏 /多 媒体 应 用 方面 。 最 终 性 能 达到 Play Station 2(PS2) 

处 理 器 性 能 的 100 倍 , 在 将 来 处 于 领导 地 位 。 

。 对 用 户 和 网 络 的 实时 响应 。 

。 适用 于 广泛 的 平台 。 

在 经 过 几 个 月 对 架构 的 讨论 之 后 ,Sony、Toshiba 和 IBM 在 2001 4E 3 月 宣布 正式 成 
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X. STI(SCEI-Toshiba-IBM) 设 计 中 心 。 历 时 5 年 ,投资 额 超过 4 亿美 元 ,在 600 多 人 的 研 
发 团队 的 努力 下 ,终于 在 2005 年 完成 了 基于 CBEA 架构 的 首 个 多 核 处 理 器 芯片 Cell 
BE, 如 图 2-36 所 示 。 


图 2-36 Cell BE 处 理 器 芯片 和 硅 片 


Cell BE 处 理 器 的 成 功 实现 得 益 于 以 下 因素 ， 

。 STI 设 计 中 心 使 用 了 综合 的 设计 方法 ,包括 处 理 器 架构 ,硬件 实现 、 系 统 结 构 和 软 
件 编程 模型 等 ; 

。STI 设 计 中 心 对 参加 研制 的 各 地 科研 机 构 发 挥 了 非常 关键 的 组 织 领导 作用 ， 

* Cell BE 包含 了 许多 灵活 的 设计 (包括 可 重新 编程 的 协 处 理 器 和 可 重新 配置 的 IO 
接口 ) ,使 得 Cell BE 成 为 支持 多 系统 的 高 效 芯片 。 

Cell BE 处 理 器 的 研制 成 功 ,丰富 了 计算 机 体系 结构 ,为 异 构 多核 处 理 器 的 发 展 葛 定 

了 基础 。 


2.4.1 Cell BE 概述 


Cell BE 处 理 器 是 一 种 典型 的 片上 异 构 多 核 处 理 器 , 它 包 括 一 个 主 处 理 单元 
(PowerPC Processing Element, PPE) 和 8 个 协 处 理 单元 (Synergistic Processing 
Element,SPE) ,接口 部 分 包括 一 个 内 存 控制 器 (Memory Interface Controller. MIC) 和 一 
个 宽带 引擎 接口 (Broadband Engine Interface. BEI) , 这 些 部 件 通 过 单元 互 连 总 线 
(Element Interconnect Bus, EIB) 连接 起 来 。Cell BE 处 理 器 的 系统 结构 图 如 图 2-37 
所 示 。 

1. PowerPC 处 理 器 


PowerPC 处 理 器 (PowerPC Processor Element. PPE), 是 一 个 通用 的 双 线 程 64 位 
RISC 处 理 器 ,其 设计 遵循 PowerPC 架构 2.02 版 本 ,并 进行 了 Vector/SIMD 多 媒体 指令 


a 


i2 


并 行 计 算 机 及 编程 基础 


Unit ID SPEI | | SPE3 | SPES | | SPE7 
} ] 7 ] 8 1 9 f 10 
PPE | 6 


lori Flexio 


BANI | 
XI0—— MIC TEM EIB MUN 


XI0-—— IOIFO [9 —Flexl | 
es 2 1 
RAM | i i 3 | | RAM 


SPEO SPE2 | SPE4 SPE6 


2-37 Cell BE 处 理 器 的 系统 结构 图 


扩展 。 比 如 ,为 PowerPC970 处 理 器 编写 的 程序 ,无 须 进 行 任何 的 更 改 就 可 在 Cell BE 上 
运行 。PPE 负责 整个 Cell BE 系统 的 全 面 控制 ,并 且 为 运行 在 PPE 和 SPE 上 的 应 用 程序 
提供 操作 系统 平台 。PPE 包含 两 个 主要 单元 : PowerPC 处 理 器 单元 (PowerPC Processor 
Unit, PPU) 和 PowerPC 处 理 器 存储 子 系统 (PowerPC Processor Storage Subsystem, 
PPSS) ,如 图 2-38 所 示 。 

PowerPC Processor Element (PPE) PPU 执行 PowerPC 架构 指 信保 和 Vieetos/ 
PowerPC Processor Unit (PPU) et tm pipe 
= HZ » t = d 
E | 缓存 和 六 个 执行 单元 。PPU 能 够 在 每 个 时 钟 周 
期 内 独立 地 载 人 32B, 存 储 16B, 并 且 保证 内 存 一 
TRU P re 致 性 。 它 支持 两 个 并 发 线程 ,在 每 个 时 钟 周期 内 
能 完成 两 个 双 精 度 操作 ,峰值 速度 在 主 频 

3.2GHz 时 达到 6. 4GFLOPS。 

PPSS 处 理 所 有 的 PPU 内 存 访问 和 EIB 的 
内 存 一 致 性 操作 , 它 有 一 个 容量 为 512KB、8 路 组 
相连 、 带 有 校 验 码 的 写 回 二 级 缓存 。 像 一 级 缓存 一 样 , 二 级 缓存 的 行 大 小 也 是 128B。 
PPSS 的 二 级 缓存 有 一 个 主 存 的 读 写 接口 ,支持 8 个 软件 管理 的 数据 预 取 流 。 它 包含 一 
级 数据 缓存 的 内 容 , 但 是 不 保证 包含 一 级 指令 缓存 的 内 容 , 它 支持 对 称 多 处 理 器 
(Symmetric Multiprocessor,SMP) 的 完全 一 致 性 。 

PPSS 与 EIB 之 间 的 接口 支持 16B 大 小 的 载 人 存储 总 线 , 在 同一 时 刻 只 能 进行 一 种 
存储 访问 ,所 有 的 内 存 访 问 按照 程序 中 设置 的 顺序 进行 。 该 接口 支持 资源 分 配 管理 
(Resource Allocation Management. RAM) ,允许 享有 特权 的 软件 来 控制 各 种 资源 分 配 的 
时 间 段 。 二 级 缓存 和 旁 路 转换 缓冲 区 (Translation Lookaside Buffer. TLB 或 称 页 表 缓 冲 
区 ) 使 用 了 替换 管理 表 (Replacement Management Table. RMT) ,替换 管理 表 允 许 享 有 特 
权 的 软件 对 二 级 缓存 和 TLB 的 使 用 进行 控制 ,这 在 实时 编程 时 尤其 有 用 。 

PPE 的 主要 功能 是 控制 执行 .运行 操作 系统 以 及 管理 系统 资源 和 SPE 的 线程 ,可 以 


L2 cache 


图 2-38 PPE 的 系统 结构 图 


第 2 章 并行 计 算 机 体系 结构 


运行 现 有 PowerPC 架构 的 软件 ,而 且 非 常 适合 执行 系统 控制 代码 。PPE 的 指令 集 是 扩 
展 的 PowerPC 指令 集 ,包含 Vector/SIMD 多 媒体 扩展 指令 集 ,可 进行 两 种 模式 的 运算 
(64 位 和 32 位 模式 ) ,运算 的 模式 控制 了 地 址 解析 的 方式 以 及 状态 位 的 设置 。 


2. 协 处 理 器 


Cell BE 中 的 协 处 理 器 (Synergistic Processor Element,SPE) 是 基于 RISC 的 128 位 
处 理 器 ,适用 于 计算 密集 数据 密集 的 SIMD 与 标量 处 理 等 方面 的 应 用 。 它 主要 由 协 处 理 
单元 (Synergistic Processor Unit,SPU) 和 内 存 流 控制 器 (Memory Flow Controller， 
MFC) 组 成 ,其 系统 结构 如 图 2-39 所 示 。 为 了 降低 功 耗 ,需要 优化 计算 密集 型 和 多 媒体 应 
用 的 性 能 ,为 此 协 处 理 器 单元 (SPU) 执 行 了 一 套 新 的 SIMD 指令 集 。 

每 个 SPU 都 有 一 个 256KB 大 小 的 本 地 存储 
(属于 SPU 的 私有 存储 空间 ), 它 并 不 与 系统 内 存 进 Synergistic Processor Element(SPE) 
行 统一 编 址 。SPU 从 256KB 的 本 地 存储 器 中 取得 Synergistic Processor Unit (SPU) 
指令 ,可 在 本 地 存储 器 与 寄存 器 文件 之 间 载 人 和 存 
储 各 种 类 型 的 数据 。 其 中 ,寄存 器 文件 有 128 个 寄 
存 器 ,每 个 128 位 宽 。 每 个 SPU 有 四 个 执行 单元 、 Memory Flow Controller(MFC) 
一 个 DMA 接口 一 个 与 MFC、PPE 和 其 他 设备 进 DMA Controller 
行 通信 的 通道 接口 。 

每 个 SPU 都 是 一 个 独立 的 .拥有 自己 的 程序 计 
数 器 优化 运行 程序 的 处 理 器 单元 。SPU 通过 MFC 
进行 DMA 数据 传送 ,把 程序 和 数据 存 人 到 本 地 存储 中 。MFC 使 用 DMA 控制 器 实现 
DMA 数据 传送 。 这 样 ,SPU 就 从 它 的 本 地 存储 器 取 指令 并 执行 ,同时 也 在 本 地 存储 器 中 
进行 数据 的 载 人 和 存储 。 

本 地 存储 器 (Local Store, LS) 是 一 个 256KB 大 小 、ECC (Error Checking and 
Correcting) 保 护 、 单 端口 .没有 缓存 的 存储 器 , 它 存储 SPU 使 用 的 所 有 指令 和 数据 。 本 地 
存储 器 每 周期 支持 一 次 来 自 其 他 SPE 程序 的 访问 或 DMA 数据 传送 访问 。SPU 在 每 个 
周期 内 可 预 取 指令 128B, 数 据 访问 宽度 是 16B,DMA 访问 宽度 为 128B。SPU (EMRA 
和 存储 指令 访问 它 的 本 地 存储 ,不 用 进行 地 址 变换 。 系 统 中 ,本 地 存储 器 与 主 存 之 间 的 
DMA 传送 满足 一 致 性 要 求 。PPE 能 够 将 其 创建 的 数据 结构 的 指针 通过 主 存 空间 传送 到 
一 个 SPU 上 ,SPU 使 用 该 指针 来 执行 一 个 DMA 命令 ,将 对 应 的 数据 结构 传 回 本 地 存储 
器 。 映 射 到 内 存 的 邮箱 或 原子 MFC 同步 命令 可 用 来 进行 同步 或 互 斥 操作 。 

每 个 SPU 都 拥有 自己 的 MFC, MFC 是 SPU 的 接口 ,通过 EIB 与 主 存 、 其 他 处 理 器 
单元 和 系统 设备 进行 通信 。MEFC 的 主要 功能 是 提供 本 地 存储 和 主 存 之 间 的 接口 , 它 通 过 
DMA 控制 器 在 本 地 存储 器 和 主 存 之 间 移 动 指令 和 数据 。MFC 还 支持 DMA 数据 传送 的 


Local Store(LS) 


图 2-39 SPE 的 系统 结构 图 
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主 存 端 内 存 保护 、 主 存 和 本 地 存储 间 的 同步 和 与 PPE、 其 他 SPE 和 设备 之 间 的 通信 等 
功能 。 

SPE 没有 缓存 ,在 容量 为 256KB 的 本 地 存储 器 上 进行 操作 ,在 本 地 存储 器 中 存储 了 
SPE 所 需 的 指令 和 数据 。 每 个 SPE 都 包含 有 MFC, 由 MFC 使 用 异步 一 致 性 DMA 操作 
来 完成 数据 和 指令 在 本 地 存储 器 与 系统 存储 器 之 间 的 传输 。 进 行 DMA 操作 的 编程 方式 
有 如 下 三 种 : 

(1) 在 SPE 上 使 用 指令 将 DMA 命令 插入 到 处 理 队列 中 ; 

(2) 在 本 地 存储 中 ,准备 DMA 传输 命令 列表 ,发 出 "DMA 列表 ”命令 ; 

(3) 在 系统 中 其 他 处 理 器 上 ,使 用 存储 或 DMA 写 命令 ,把 DMA 传输 命令 插入 处 理 
队列 中 。 


3. 单元 互 连 总 线 

单元 互 连 总 线 (Element Interconnect Bus, EIB) Æ Cell BE 处 理 器 上 所 有 单元 .片上 存 
储 控制 器 以 及 1/O 的 数据 和 命令 通信 渠道 ,提供 的 峰值 带宽 高 达 204. 8GB/s, 如 图 2-40 所 
示 。 它 支持 内 存 一 致 性 和 对 称 多 处 理 器 (Symmetric Multiprocessor, SMP) 操 作 , 可 以 将 
多 个 Cell BE 处 理 器 互 连 组 成 一 个 多 处 理 器 集群 系统 。 
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Æ 2-40 Cell BE 处 理 器 内 部 元 件 之 间 的 互 连 数据 总 线 拓扑 结构 图 


EIB 由 4 个 16B 宽 的 数据 环 组 成 ,每 个 数据 环 一 次 可 以 传送 128B( 即 PPE 缓存 中 的 
一 行 ) ,处 理 器 单元 可 通过 EIB 同时 发 送 和 接收 数据 。 图 2-37 给 出 了 各 个 单元 的 ID 号 和 
各 个 单元 连接 到 EIB 的 顺序 。 对 程序 员 来 说 ,各 个 单元 连接 到 EIB 的 顺序 对 获得 EIB 上 
的 最 小 传输 延迟 非常 重要 : 传输 延迟 与 连接 顺序 的 间隔 数 密切 相关 ,所 以 邻近 的 单元 之 
间 的 延迟 最 小 ,间隔 为 6 的 单元 间 的 延迟 最 大 。 

EIB 内 部 的 最 大 带宽 是 每 个 处 理 器 时 钟 周期 内 为 96B, 在 每 个 数据 环 上 可 同时 进行 
多 路 数据 传送 ,包括 主 存 与 SPE 之 间 超 过 100 个 的 DMA 内 存 请 求 。EIB 除了 保证 传输 
的 进行 ,并 不 支持 任何 QoS 服务 ,然而 享有 特权 的 软件 可 使 用 EIB 中 的 资源 管理 部 件 
(Resource Allocation Management, RAM) 来 控制 资源 请 求 者 (PPE、SPEs 和 I/O 设备 ) 
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对 内 存 和 I/O 资源 的 使 用 率 。 
4. 内 存 控 制 器 


Cell BE 芯片 上 的 内 存 接口 控制 器 (Memory Interface Controller, MIC) 提 供 了 EIB 
与 物理 内 存 之 间 的 接口 。Cell BE 支持 一 个 或 两 个 XDR (Extreme Data Rate, XDR) 
Rambus 内 存 接口 ,使 用 两 个 XDR 接口 能 支持 64MB—64GB 的 XDR DRAM, 

在 每 个 XDR 接口 上 ,内 存 访问 的 大 小 可 从 1 到 8、16、32、64、128B, 队 列 中 最 多 可 排 
有 64 个 读 操作 和 64 个 写 操作 ,资源 分 配 信号 管理 器 可 以 提供 队列 中 排队 的 操作 的 数量 。 

MIC 有 多 种 软件 控制 模式 ,包括 快速 路 径 模式 ( 当 命令 队列 为 空 时 ,用 于 降低 延迟 )、 
高 优先 级 读 模 式 ( 在 所 有 读 操作 中 ,SPE 的 读 操 作 优先 )、 提 前 读 模 式 ( 在 前 一 个 写 操作 完 
成 之 前 ,开始 读 操作 )、 猜 测 读 模 式 和 慢 模式 (用 于 能 耗 管理 ) 等 。 

XDR DRAM 内 存 是 ECC 保护 的 , 带 有 多 位 错误 检测 和 位 选择 错误 修正 功能 ,支持 
写 屏蔽 ,支持 初始 时 间 校 准 和 周期 性 时 间 校 准 , 支 持 动态 宽度 控制 . 子 页 面 激 活 动态 时 钟 
门 控 和 4、8 或 16 个 内 存 通道 。 


5. 宽带 引擎 接口 


Cell BE 芯片 上 的 宽带 引擎 接口 (Broadband Engine Interface,BEI) 单 元 支持 1/0 接 
口 , 它 包括 一 个 总 线 接口 控制 器 (Bus Interface Controller, BIC), 1/0 控制 器 (1/O 
Controller,IOC) 和 内 部 中 断 控制 器 (Internal Interrupt Controller, IIC) ,管理 着 EIB 与 
1/0 设备 之 间 的 数据 传送 ,提供 T/O 地 址 变换 和 命令 处 理 。 

BEI 支持 两 个 Rambus FlexIO 接口 : IOIFo 和 IOIF1。 其 中 ,IOIF1 只 支持 非 耦 合 的 
I/O 接口 协议 ,适合 连接 1/0 设备 。IOIF0( 也 称 为 BIFVIOIF0o) 可 通过 软件 配置 选择 非 耦 
合 IOIF 协议 或 内 存 耦 合 Cell BE 接口 (Cell Broadband Engine Interface,BIF) 协 议 。BIF 
协议 是 EIB 的 内 部 协议 ,可 通过 IOIF0 连接 到 另外 一 个 Cell BE 处 理 器 。 图 2-41(a) 与 
图 2-41(b) 分 别 是 两 个 Cell BE 处 理 器 之 间 与 四 个 Cell BE 处 理 器 之 间 的 互 连 结构 图 。 


2.4.2 Cell BE 关键 技术 

1. cache 管理 

在 Cell BE 处 理 器 中 ,有 几 种 类 型 的 cache。 其 中 ,首先 是 PPE 的 一 级 指令 缓存 和 一 
级 数据 缓存 以 及 与 一 级 缓存 保持 一 致 性 的 二 级 缓存 。 这 些 缓存 中 的 内 容 与 主 存 的 中 内 容 
保持 一 致 ,PowerPC 架构 的 缓存 控制 支持 用 户 对 cache 行 的 操作 。 除 了 一 级 缓存 和 二 级 


缓存 ,PPE 和 SPE 还 有 其 他 缓存 .队列 和 数组 用 于 提高 性 能 ,并 可 使 用 软件 方法 来 进行 
控制 。 


并 行 计 算 机 及 编程 基础 


Memory Memory | | Memory Memory 
i il i 1 | 
1 1 1 1 


[^ "Coherent ^ | 
一 --------- A I----------- 
Non-Coherent Non-Coherent i BE Pn BIRProtocol l| BE on-Coherent Non-Coherent 
JO Device. IOIF Protocol | Cs pour d Cell BE Processor |IOIF Protocol UVO Device 
REIHE — Non-Conherent |l llle 
-IOIF Protocol , | 


(a) 两 个 Cell BE 之 间 的 互 连 结构 图 
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(b) 四 个 Cell BE 之 间 的 互 连 结 构图 
图 2-41 Cell BE 之 间 的 互 连 结构 图 


1) PPE caches 

除了 一 级 缓存 和 二 级 缓存 之 外 ,PPE 还 有 其 他 缓存 、 队 列 和 数组 来 支持 内 存 管理 , 作 
为 一 级 缓存 和 二 级 缓存 的 前 驱 (predecessors) 和 扩展 (extensions)。 比 如 ,PPE 有 存储 队 
列 , 可 以 存放 载 入 单元 ,存储 单元 和 缓存 之 间 传 输 的 数据 ; PPE 有 移出 (castout) 队 列 , 可 
以 存放 移出 二 级 缓存 已 被 修改 的 数据 。PPE 的 线程 共享 所 有 的 一 级 缓存 、 二 级 缓存 和 一 
些 其 他 存储 结构 (在 有 的 存储 结构 中 ,每 个 线程 都 拥有 一 份 副本 )。 

两 个 PPE 线程 共享 执行 单元 、 微 代码 (microcode) 引 擎 .指令 预 取 控 制 .PPSS, 一 些 其 
他 缓存 .数组 .队列 和 存储 结构 。 

PPU 支持 缓存 数组 .队列 和 其 他 存储 结构 ,其 主要 模块 有 指令 单元 (Instruction Unit. 
IU) 、 载 人 与 存储 单元 (Load and Store Unit, LSU)、 内 存 管理 单元 (Memory Management 
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Unit, MMU). PPSS 的 主要 模块 包括 内 核 接 口 单元 (Core Interface Unit, CIU) 、 非 缓存 
单元 (Noncacheable Unit. NCU) 和 二 级 缓存 。CIU 包括 载 入 、 存 储 和 再 载 人 子 单元 ,它们 
之 间 独 立地 进行 工作 。 

(1) L1 cache 

PPE 具有 支持 PowerPC 架构 缓存 控制 指令 的 一 级 指令 缓存 和 一 级 数据 缓存 。 通 过 
设置 页 表 项 (Page-table Entry,PTE) 的 缓存 控制 位 来 确定 是 否 对 主 存 的 访问 ( 载 人 、 存 储 
和 指令 预 取 ) 进 行 缓存 。 如 果 进 行 缓存 的 话 , 则 缓存 控制 位 必须 设置 为 “0?。 

PPE 的 两 个 线程 动态 地 共享 一 级 指令 缓存 和 一 级 数据 缓存 ,其 中 一 个 线程 载 入 的 缓 
存 模块 也 可 被 男 一 个 线程 使 用 。 一 级 指令 缓存 是 PPE 指令 单元 的 主要 部 分 ,一 级 数据 组 
存 是 PPE 载 入 /存储 单元 的 主要 部 分 。 人 处 理 单元 以 Cell BE 的 最 高 时 钟 频率 对 一 级 缓存 
进行 访问 。 

一 级 缓存 支持 PowerPC 架构 的 缓存 管理 指令 ,完成 如 写 回 、 便 无 效 、 刷 新 ( 写 回 和 无 
AO 将 目录 清 为 ‘0’ 等 操作 。 

一 级 指令 缓存 使 用 完全 二 又 树 最 近 最 少 使 用 替换 算法 (true binary Least Recently 
Used, LRU) ,不 带 蔡 换 管理 表 (Replacement Management Table, RMT) 锁 定 ; 一 级 数据 
缓存 使 用 伪 最 近 最 少 使 用 替换 策略 (pseudo Least Recently Used,p-LRU)。 

(2) L2 cache 

PPE 包含 一 个 容量 为 512KB 的 二 级 缓存 ,该 二 级 缓存 支持 PowerPC 架构 缓存 控制 
指令 ,通过 PTE 中 的 缓存 控制 位 来 控制 缓存 的 使 用 。 

二 级 缓存 保证 系统 内 的 缓存 行 的 全 一 致 性 ,能 为 其 他 处 理 器 单元 提供 数据 。 从 人 逻辑 
上 讲 , 二 级 缓存 是 内 联 缓存 , 它 是 采用 写 回 方式 来 保证 缓存 的 一 致 性 ,包含 一 级 数据 缓存 
的 全 部 目录 ,但 不 保证 包含 一 级 指令 缓存 的 目录 。 两 个 PPE 执行 线程 动态 地 共享 二 级 缓 
存 , 一 个 缓存 块 可 被 其 中 一 个 线程 载 人 ,被 另 一 个 线程 使 用 。 

二 级 缓存 处 理 所 有 可 缓存 的 载 人 和 存储 数据 预 取 、 指 令 预 取 、 缓 存 操 作 和 栅栏 操作 。 
二 级 缓存 像 一 级 缓存 一 样 支持 缓存 管理 指令 。 

二 级 缓存 可 通过 API 函数 设置 如 下 替换 算法 : 

* LX LRU 模式 , 它 是 一 种 基于 二 又 树 的 调度 算法 ; 

。 直接 映射 模式 , 它 使 用 3 个 标签 地 址 位 将 1 个 地 址 映射 到 8 个 同 余 类 成 员 中 ; 

。 伪 LRU 模式 , 它 使 用 软件 配置 的 地 址 范围 寄存 器 (Address Range Register. 
ARR) 和 一 个 蔡 换 管理 表 锁 住 到 某 个 指定 的 替换 类 别 标识 符 (Replacement Class 
Idetifier, RelassID) 的 缓存 通道 ,其 他 两 种 模式 不 能 使 用 这 个 功能 。 

2) SPE caches 

每 个 SPE 的 MFC 均 有 如 下 两 种 缓存 (PPE 特权 软件 可 对 它们 进行 管理 ) : 

。 旁 路 转换 缓冲 区 (Translation Lookaside Buffer, TLB) ; 
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* 原子 缓存 (Atomic Unit Cache.called the Atomic cache). 

(1) 旁 路 转换 缓冲 区 

在 MFC 中 ,每 个 SPE 的 协 内 存 管理 单元 (Synergistic Memory Management, SMM) 
包含 : 一 个 256 项 (entry)4 路 组 相连 的 TLB 缓存 ,缓存 中 存 有 最 近 使 用 过 的 页 表 项 
(Page Table Entry,PTE)。TLB 有 64 个 同 余 类 (congruence classes) ,每 个 同 余 类 需要 
用 6 位 进行 TLB 索引 。TLB 是 奇偶 校 验 保护 的 ,奇偶 校 验 的 产生 和 检查 可 通过 寄存 器 
设置 实现 。 可 使 用 硬件 和 软件 的 方法 蔡 换 TLB fT. 

(2) 原子 缓存 

每 个 SPE 的 MFC 都 包含 一 个 原子 单元 ,处 理 SPU 的 信号 操作 ,为 SMM 提供 PTE 
数据 。 原 子 单元 还 有 如 下 功能 : 

。 为 MFC 原子 命令 提供 原子 操作 ; 

* J SMM 的 硬件 查找 表 提 供 PTE, 更 新 PTE 中 的 引用 位 或 变化 位 ; 

。 通过 监听 操作 ,保持 缓存 一 致 性 。 

原子 缓存 存储 6 组 128 字 节 缓存 行 大 小 的 数据 。 其 中 ,4 组 支持 信号 操作 ,1 组 支持 
PTE 访问 ,1 组 支持 数据 的 重新 载 人 。 

3) 替换 管理 

PPE 和 SPE 为 管理 软件 提供 了 一 种 通过 替换 类 别 标识 (Replacement class ID) 控 制 
二 级 缓存 和 TLB 缓存 的 替换 方法 。 其 中 ,ID 用 作 RMT 的 索引 ,可 锁 住 二 级 缓存 和 TLB 
缓存 的 行 。RMT 的 锁 功 能 改变 了 二 级 缓存 和 TLB f LRU 算法 的 操作 方式 。 

PPE 通过 RMT 管理 它 的 TLB 和 它 的 二 级 缓存 ,每 个 SPE 也 有 一 个 RMT 来 管理 它 
的 TLB。 当 一 小 部 分 页 面 被 应 用 程序 频繁 访问 且 需 要 在 二 级 缓存 或 TLB 中 上 锁 以 免 缺 
失 时 ,RMT 非常 有 用 。 比 如 ,在 实时 应 用 程序 中 经 常 使 用 这 种 方法 ,但 是 ,过 多 的 资源 锁 
操作 对 性 能 有 不 利 影响 。 


2. 片 内 通信 


Cell BE 作为 一 种 片上 多 核 架 构 , 具 有 共享 内 存 系统 的 许多 属性 ,PPE 和 所 有 SPE 可 
保证 一 致 性 访问 主 存 。 但 是 ,Cell BE 处 理 器 不 是 传统 的 共享 内 存 多 核 处 理 器 ,比如 ,一 个 
SPE 可 运行 程序 ,并 可 直接 从 它 私有 的 本 地 存储 中 载 入 和 存储 数据 。 在 传统 的 共享 内 存 
多 核 处 理 器 中 ,多 核 之 间 的 数据 通信 和 同步 操作 至 少 部 分 依赖 于 共享 内 存 。 而 SPE 没有 
共享 内 存 , 它 们 必须 显 式 地 与 其 他 单元 进行 通信 ,主要 使 用 如 下 三 种 通信 方式 : 

* DMA 传送 ; 

。 邮箱 消息 ; 

。 信号 通知 。 

这 三 种 通信 方式 ( 见 表 2-3) 由 SPE 的 MFC 来 实现 和 控制 。 
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表 2-3 Cell BE 通信 方式 


通信 方式 描 述 

DMA 传送 用 于 主 存 与 本 地 存储 之 间 数 据 和 指令 的 传送 。SPE 依靠 异步 DMA 传送 来 隐 
藏 内 存 访问 延迟 和 SPU 计算 时 产生 的 并 行 移动 数据 的 传送 开销 

邮箱 用 于 控制 SPE 与 PPE 或 其 他 单元 之 间 的 通信 。 邮 箱 中 的 信息 为 32 位 ,每 个 
SPE 有 两 个 邮箱 用 于 发 送信 息 ,一 个 邮箱 用 于 接收 信息 

信号 通知 用 于 控制 从 PPE 或 其 他 单元 发 出 的 通信 。 信 号 通知 使 用 32 位 寄存 器 ,能 够 


配置 成 一 发 一 收 或 多 发 一 收 等 信号 通知 方式 


有 的 编程 模型 要 依赖 PPE 完成 应 用 程序 的 任务 管理 ,将 任务 指定 和 分 配给 SPE。 任 
务 管理 中 ,非常 重要 的 一 个 部 分 就 是 将 程序 和 数据 载 人 主 存 , 然 后 通过 邮箱 或 信号 通知 寄 
存 器 通知 可 进行 工作 的 SPE。SPE 得 到 消息 或 通知 信号 之 后 ,进行 一 次 DMA 操作 ,将 主 
存 中 的 数据 和 代码 传送 到 它 的 本 地 存储 。 对 该 编程 模型 进行 改进 ,PPE 可 进行 DMA 操 
作 , 当 DMA 操作 完成 之 后 发 送 一 个 消息 或 信号 通知 SPE。 

处 理 完 数据 之 后 ,SPE 可 再 进行 一 次 DMA 操作 将 结果 传送 到 主 存 。 当 DMA 操作 将 
数据 结果 从 本 地 存储 传送 到 主 存 之 后 ,SPE 会 将 一 个 完成 消息 写 人 用 于 发 送 消息 的 一 个 邮 
箱 中 ,通知 PPE 数据 处 理 和 传送 已 完成 。 如 果 完 成 消息 的 大 小 超过 32 位 , 则 可 通过 SPE 写 
入 多 个 邮箱 消息 或 使 用 一 个 DMA 操作 完成 长 消息 到 主 存 的 传送 。 在 主 存 中 ,PPE 能 够 读 
到 该 消息 。 甚 至 可 用 DMA 操作 传送 一 个 长 的 完成 消息 ,使 用 邮箱 通知 PPE 有 信息 。 

1) DMA 传送 

按照 传输 方式 的 不 同 ,DMA 传送 (参考 自 文献 [18]) 可 分 为 DMA 传输 和 DMA 列表 传输 。 

。 DMA 传输 方式 是 在 本 地 存储 器 的 连续 区 域 与 系统 内 存 中 的 连续 单一 区 域 之 间 进 

行 传输 ,每 次 传输 的 数据 大 小 不 超过 16KB; 
。 DMA 列表 传输 方式 是 在 本 地 存储 器 的 单个 连续 区 域 与 系统 内 存 中 的 不 连续 区 域 
之 间 进 行 传输 , 它 通 过 一 系列 传输 列表 元 素 项 来 指定 传输 参数 。 

DMA 传输 方式 和 DMA 列表 传输 方式 的 特性 如 表 2-4 所 示 。 

(1) DMA 传输 方式 

使 用 DMA 传输 方式 进行 传输 的 主要 步骤 如 下 : 

CD 调用 DMA 传输 API, 发 送 传输 命令 ; 

© 设置 标签 掩 码 , 确 定 进行 状态 检查 的 标签 组 ; 

© 等 待 DMA 传输 完成 。 可 在 进行 状态 检查 的 标签 组 中 的 所 有 DMA 传输 全 部 完成 
之 后 才 返回 ,也 可 在 任意 一 个 DMA 传输 完成 之 后 就 返回 。 

DMA 命令 用 于 在 SPE 的 本 地 存储 与 系统 内 存 之 间 传 输 数据 。 系 统 内 存 通过 DMA 
命令 中 的 有 效 地 址 操作 数 进 行 寻 址 ,SPE 的 本 地 存储 通过 本 地 存储 地 址 操作 数 进行 寻 
址 。 每 次 DMA 传输 数据 在 16KB 之 内 ,本 地 存储 数据 以 最 小 步 长 16B 顺序 访问 。 


a 


B 
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表 2-4 DMA 传输 方式 和 DMA 列表 传输 方式 的 特性 


Ù R 特 性 


DMA 传输 传输 大 小 只 能 是 1.2.4.8 和 16 的 整数 倍 ; 
每 次 DMA 的 最 大 数据 量 为 16KB; 
传输 的 源 起 始 地 址 和 目的 地 址 只 能 从 16B 的 整数 倍 地 址 开始 ; 
128 字 节 对 齐 能 够 获得 更 好 的 性 能 

DMA 列表 传输 一 条 DMA 列表 命令 最 多 可 包含 2048 条 传输 请 求 ; 


每 条 传输 请 求 最 多 可 传输 16KB 的 数据 ; 

每 条 传输 请 求 的 大 小 只 能 是 1.2、4、8 和 16 的 整数 倍 ; 

传输 的 源 起 始 地 址 和 目的 地 址 只 能 从 16B 的 整数 倍 地 址 开始 ; 
实现 收集 /散播 的 功能 


当 传输 的 源 起 始 地 址 和 目的 地 址 与 缓存 行 边界 对 齐 且 至 少 传输 一 个 缓存 行 大 小 时 ， 
DMA 数据 的 传输 性 能 最 佳 。16B 对 齐 的 数据 传输 除了 第 一 次 和 最 后 一 次 ,剩余 部 分 数据 
的 传输 能 产生 完整 缓存 行 的 总 线 请 求 ,而 第 一 次 和 最 后 一 次 可 能 会 导致 少 于 128B 的 部 
分 缓存 行 传输 。 

(2) DMA 列表 传输 方式 

使 用 DMA 列表 传输 方式 进行 传输 的 主要 步骤 如 下 : 

(D 填充 DMA 列表 数据 结构 ; 

© 调用 DMA 列表 传输 API, 发 送 传 输 命 令 ; 

© 设置 标签 掩 码 , 确 定 要 进行 状态 检查 的 标签 组 ; 

© 等 待 DMA 列表 传输 完成 。 可 在 进行 状态 检查 的 标签 组 中 的 所 有 DMA 传输 全 部 
完成 之 后 才 返 回 ,也 可 在 任意 一 个 DMA 传输 完成 之 后 就 返回 。 

DMA 列表 包含 多 个 传输 表 项 , 它 和 发 起 DMA 列表 的 命令 一 起 ,指定 在 SPE 本 地 存 
储 器 的 连续 区 域 与 系统 内 存 中 可 能 不 连续 的 区 域 之 间 进 行 一 系列 的 DMA 传输 。DMA 
列表 命令 只 能 由 运行 于 SPE 上 的 程序 发 起 ,但 PPE 或 其 他 单元 能 在 SPE 的 本 地 存储 器 
中 创建 和 存储 列表 。DMA 列表 命令 可 用 于 系统 内 存 与 本 地 存储 器 之 间 的 收集 /散播 。 

2) 邮箱 消息 

邮箱 支持 在 SPE 与 其 他 单元 之 间 发 送 和 缓冲 32 位 消息 ,比如 SPE 与 PPE 之 间或 者 
一 个 SPE 与 和 其 他 SPE 之 间 。 每 个 SPE 能 够 访问 3 个 邮箱 通道 ,每 个 邮箱 通道 都 与 
SPU 中 的 MFC 的 寄存 器 相连 。 两 个 单数 据 项 输出 邮箱 通道 一 一 SPE 写 输出 邮箱 和 SPE 
写 输出 中 断 邮 箱 ,用 于 从 SPE 发 送 消息 到 PPE 或 其 他 单元 。 一 个 4 数据 项 邮箱 一 一 
SPU 读 输 入 邮箱 ,用 于 从 PPE、 其 他 SPE 或 单元 发 送 消息 到 SPE。 每 个 输出 邮箱 通道 都 
有 一 个 相应 的 内 存 映 射 1/O(Memory Mapped 1/O,MMIO) 寄 存 器 ,PPE 或 其 他 单元 可 通 
过 访问 MMIO 寄存 器 来 访问 输出 邮箱 。 
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(1) 邮箱 的 读 写 

当 一 个 SPE 程序 使 用 一 个 SPE 写 通道 命令 向 一 个 输出 邮箱 写 数据 时 ,其 他 任何 处 
理 器 单元 或 设备 均 可 通过 读 主 存 空间 中 相应 的 MMIO 寄存 器 来 获得 该 数据 。 一 个 设备 
使 用 MMIO 寄存 器 将 数据 写 和 人 SPU 输入 邮箱 ,SPE 程序 可 使 用 读 通道 命令 读 取 这 个 邮 
箱 获 得 数据 。 

输出 邮箱 的 MMIO 读 操作 或 输入 邮箱 的 写 操作 ,能 够 通过 编程 来 产生 一 个 SPE 中 
断 , 从 而 按 顺序 引发 一 个 SPU 中 断 。 每 当 在 一 个 PPE 程序 中 SPU 读 输入 邮箱 时 ,SPU 
输入 邮箱 通道 计数 器 就 会 增加 计数 。 每 当 在 一 个 SPE 程序 中 读 取 输入 邮箱 中 的 数据 时 ， 
该 通道 计数 器 就 会 减少 计数 。 输 入 邮箱 像 先进 先 出 队列 那样 工作 ,SPE 程序 首先 读 取 最 
早 进入 邮箱 的 数据 。 如 果 在 SPE 程序 读 取 该 数据 之 前 ,PPE 程序 写 数据 超过 了 4 次 , 则 
通道 计数 器 将 停留 在 ‘4’ , 且 在 第 4 个 位 置 上 存放 PPE 最 后 一 次 写 入 的 数据 。 比 如 ,如 果 
PPE 程序 在 SPE 程序 读 取 数 据 之 前 写 了 5 次 数据 , 则 数据 读 取 的 顺序 是 第 1、 第 2、 第 3 
和 第 5 次 写 入 的 数据 ,第 4 次 写 人 的 数据 被 覆盖 。 

(2) 邮箱 阻塞 

SPE 对 邮箱 的 读 写 操作 为 阻塞 式 操作 。 如 果 输 出 邮箱 已 满 ,SPE 对 输出 邮箱 的 写 操 
作 将 阻塞 SPE, 直 到 邮箱 中 的 数据 项 被 PPE 读 取 。 读 操作 与 写 操作 类 似 ,如 果 邮 箱 中 没 
有 消息 而 进行 了 读 操作 一 一 不 是 读 取 通 道 计数 值 , 则 将 阻塞 SPE, 直到 PPE 向 该 邮箱 中 
写 和 消息。 也 就 是 说 ,如 果 通 道 计数 器 是 “0 , 则 该 通道 就 是 一 个 阻塞 通道 ,对 该 通道 的 读 
或 者 写 操作 将 阻塞 SPE, 直 到 通道 计数 器 的 值 从 “0’ 变 为 非 零 值 。 

为 了 避免 阻塞 ,SPE 软件 在 决定 是 否 读 或 写 邮 箱 通 道 之 前 ,要 读 取 与 邮箱 相关 联 的 
通道 计数 器 来 避免 阻塞 SPE, SPE 的 阻塞 不 适用 于 PPE, 如 果 PPE 发 送 消 息 到 输入 邮 
箱 , 且 邮箱 已 满 ,PPE 也 不 会 被 阻塞 。 

当 写 通道 指令 要 将 数据 发 送 到 一 个 已 满 的 输出 邮箱 时 , 写 通 道 指令 将 被 阻塞 ,SPE 
程序 不 会 覆盖 输出 邮箱 中 的 数据 。 输 出 邮箱 中 的 所 有 消息 必须 被 SPU 之 外 的 单元 读 取 ， 
这 样 才 有 空间 提供 给 更 新 的 消息 使 用 。 相 比较 而 言 .其 他 设备 对 SPU 的 输入 邮箱 的 写 操 
作 不 被 阻塞 ,因为 输入 邮箱 的 数据 可 被 覆盖 。 当 PPE 或 其 他 设备 向 一 个 已 满 的 输入 邮箱 
中 写 人 消息 时 ,之 前 最 近 一 次 写 入 邮箱 的 信息 就 会 被 覆盖 而 丢失 。 

(3) 邮箱 的 使 用 

使 用 邮箱 进行 消息 通信 的 最 大 长 度 为 32 位 ,如 缓冲 完成 标志 或 程序 状态 。 邮 箱 能 够 
传送 任意 短 的 数据 ,如 发 送 存储 地 址 、 函 数 参数 、 命 令 参数 和 机 器 状态 参数 等 。 

M SPE 将 计算 结果 通过 DMA 方式 存 和 人 主 存 时 ,邮箱 非常 有 用 。SPE 在 请 求 DMA 
传送 之 后 ,等待 DMA 传送 完成 ,然后 通过 写 输出 邮箱 通知 PPE 计算 已 完成 。 

如 果 在 等 待 一 个 DMA 传送 完成 之 后 ,SPE 才 发 送 一 个 邮箱 信息 ,这 只 能 确保 它 的 本 
地 存储 缓冲 区 能 被 重新 使 用 ,不 能 保持 数据 已 保持 一 致 性 地 写 人 了 主 存 。SPE 通过 在 通 
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^l PPE 之 前 运行 一 个 MFC 同步 命令 解决 该 问题 。 但 这 个 方法 的 效率 不 高 ,更 好 的 办 法 
是 使 PPE 接收 信和 号 通知 ,然后 在 访问 任意 一 个 结果 数据 之 前 运行 同步 载 入 命令 。 

另外 一 种 方法 是 ,SPE 可 通过 DMA 方式 写 一 个 通知 给 主 存 用 来 通知 PPE 它 已 完成 
计算 ,PPE 能 够 读 取 该 通知 。 在 这 种 方式 中 ,数据 和 写 回 必须 是 顺序 的 。 为 了 保证 顺序 ， 
必须 在 数据 DMA 命令 与 主 存 通 知之 间 运 行 强制 顺序 执行 命令 。 

尽管 邮箱 主要 用 于 PPE 与 SPE 之 间 的 通信 ,它们 也 能 被 用 于 一 个 SPE 与 其 他 SPE、 
处 理 器 或 设备 之 间 的 通信 。 为 了 实现 这 一 点 , 需 特权 软件 允许 一 个 SPE 通过 把 目标 SPE 
的 状态 区 域 映射 到 源 SPE 的 有 效 地 址 空间 访问 该 SPE 中 的 邮箱 寄存 器 。 如 果 软 件 不 能 
实现 这 一 点 , 则 只 有 原子 操作 和 信号 通知 能 够 实现 SPE 与 其 他 SPE 之 间 的 通信 。 

3) 信号 通知 

SPE 的 信号 通知 通道 (Signal-notification channel) 与 SPE 的 输入 寄存 器 相连 ,PPE、 
其 他 SPE 和 设备 使 用 信号 通知 寄存 器 将 信息 (比如 ,缓冲 区 已 满 的 同步 标志 ) 发 送 给 一 个 
SPE。 一 个 SPE 有 两 个 32 位 信号 通知 寄存 器 ,每 个 寄存 器 有 一 个 相对 应 的 MMIO 寄存 
器 ,这 个 MMIO 寄存 器 可 以 写 人 信和 号 通知 数据 。 

当 SPE 程序 读 取 一 个 信号 通知 通道 时 ,硬件 会 自动 清除 通道 。 相 比 之 下 , 主 存 空 间 
中 的 MMIO 读 操 作 不 会 清除 信号 通知 寄存 器 。 在 等 待 一 个 信号 通知 出 现时 ,SPE 程序 可 
进行 查询 与 阻塞 操作 ,或 设置 中 断 来 捕获 异步 到 达 的 信和 号。 

通过 写 SPE 的 MFC 中 的 MMIO 寄存 器 ,PPE 向 SPE 发 送信 号 通知 消息 ,该 信号 消 
息 存 放 在 MMIO 寄存 器 中 ,SPE 程序 通过 读 通 道 指令 来 读 取信 号 通知 数据 。 

(1) SPU 信号 通道 

每 个 SPU 均 有 两 个 信号 通知 通道 ,分 别 对 应 于 两 个 信号 通知 MMIO 寄存 器 。 一 个 
信号 的 信息 长 度 从 1 位 到 32 位 不 等 。 一 个 SPU 读 信 号 通道 时 ,如 果 没 有 信和 号 可 以 读 取 ， 
则 SPU 将 会 被 阻塞 。 这 两 个 信号 通道 中 的 每 个 信号 通道 均 有 一 个 数据 项 。 这 样 , 读 通 道 
计数 器 的 返回 值 可 表明 是 否 有 可 用 的 信息 存在 。 如 果 通 道 返回 值 为 "1”, 则 有 信号 存在 。 
如 果 返 回 值 为 "0”, 则 没有 信号 。 如 果 信 号 通知 通道 的 通道 计数 器 的 值 为 "0”, 则 该 通道 的 
读 指 令 将 阻塞 SPU, 直 到 有 信号 通知 出 现 为 止 。 

(2) 信号 使 用 

像 邮 箱 一 样 , 当 SPE 将 计算 结果 通过 DMA 方式 存 入 主 存 时 ,信号 通知 通道 非常 有 
H. SPE 申请 DMA 传送 之 后 .等 待 DMA 传送 操作 完成 ,发 送 一 个 信号 通知 PPE 它 负 
责 的 计算 任务 已 完成 。 在 这 种 情况 下 ,等待 DMA 操作 完成 时 只 能 保证 SPE 的 本 地 存储 
缓冲 区 可 被 重新 使 用 ,不 能 保证 计算 结果 已 保持 一 致 性 地 写 人 主 存 。 


2.4.3 Cell BE 设计 特点 
Cell BE 处 理 器 所 获得 的 优异 性 能 在 于 其 成 功 的 架构 设计 ,克服 了 处 理 器 功 耗 、 内 存 
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访问 和 处 理 器 频率 对 处 理 器 性 能 提升 的 东 缚 。Cell BE 采用 了 异 构 多 核 架构 (一 个 PPE 
负责 运行 操作 系统 和 资源 调度 、8 个 SPE 运行 计算 密集 型 的 应 用 程序 ) ,降低 了 电源 功 
耗 , 提 高 了 处 理 器 的 工作 频率 、 并 行 性 和 安全 性 。Cell BE 采用 的 3 层 存储 架构 ( 即 主 存 、 
SPE 本 地 存储 器 和 SPE 寄存 器 ) 解 决 了 内 存 访问 延迟 问题 。EIB 总 线 设计 为 各 处 理 单元 
提供 了 快速 的 通信 渠道 。 正 是 这 些 独 特 的 架构 设计 ,实现 了 Cell BE 处 理 器 在 性 能 上 的 
飞跃 。 


1. 异 构 结 构 设 计 


多 核 处 理 器 体系 结构 有 两 个 主要 分 支 : 同 构 多 核 和 异 构 多 核 。 同 构 多 核 处 理 器 内 部 
所 有 的 核心 结构 完全 相同 ,主要 针对 特征 单一 的 应 用 ,通过 在 多 个 处 理 器 核 上 运行 多 个 线 
程 来 挖掘 更 多 的 并 行 性 ,如 IBM 的 Powerd; 异 构 多 核 处 理 器 内 部 芯片 采用 多 种 功能 不 
同 的 核心 ,如 负责 管理 调度 的 主 核 和 负责 计算 的 从 核 。Cell BE 处 理 器 是 一 种 典型 的 片上 
异 构 多 核 处 理 器 , 它 由 1 个 PPE 和 8 个 SPE 通过 片上 宽带 引擎 组 合 而 成 。 其 中 ,PPE 运 
行 操作 系统 ,负责 系统 的 全 局 控制 。SPE 优化 运行 计算 密集 型 任务 。 这 种 异 构 设计 ,能 
够 使 PPE 和 SPE 工作 在 高 频率 状态 而 没有 额外 的 负载 , 主 频 达 到 3. 2GHz,32 位 峰值 速 
度 为 256GFLOPS,64 位 峰值 速度 为 26GFLOPS。 这 种 异 构 设计 ,优化 配置 了 片上 资源 ， 
不 仅 提 升 了 处 理 器 的 执行 效率 ,还 降低 了 处 理 器 的 功 耗 。 


2. 电源 功 耗 设 计 


在 Cell BE 处 理 器 设计 之 初 , 功 耗 和 散热 设计 就 是 两 个 关键 性 问题 。 

提高 电源 功效 的 途径 之 一 是 采用 异 构架 构 : PPE 负责 管理 工作 ,SPE 负责 运算 工作 。 
另外 一 个 途径 就 是 采用 功 耗 管理 单元 (Power Management Unit, PMU)。 当 不 需要 芯片 
的 全 部 运算 能 力 时 ,可 以 用 软件 进行 控制 。PMU 允许 操作 系统 对 一 个 /多 个 单元 甚至 整 
个 芯片 进行 调 速 .暂停 ,停止 等 操作 ,从 而 达到 管理 芯片 功 耗 的 目的 。 

在 散热 监控 设计 上 ,部 署 了 热 敏 传感器 和 硬件 控制 的 散热 管理 单元 (Thermal 
Management Unit,TMU) 。 一 个 线性 二 极 管 把 这 两 个 模块 的 管 脚 连接 起 来 ,允许 外 部 设 
备 监 控 处 理 器 的 温度 。 该 热 敏 传感器 被 放置 在 温度 相对 稳定 的 位 置 , 读 取 处 理 器 的 整体 
温度 ,来 控制 外 部 的 冷却 装置 。 此 外 ,还 有 10 个 数字 热 敏 传感器 (Digital Thermal 
Sensors,DTS) 分 布 在 芯片 上 ,其 中 每 个 处 理 单元 中 都 有 一 个 DTS, 监 测 关 键 区 域 的 温度 。 

TMU 不 间断 地 监测 每 个 热 敏 传感器 ,可 通过 编程 来 动态 地 控制 每 个 处 理 单元 的 温 
度 。 当 传感器 达到 指定 的 温度 时 就 中 断 PPE 的 运行 .处理 单 元 的 运行 取决 于 与 之 相关 联 
的 DTS 的 温度 。 

通过 软件 设置 TMU 中 每 个 传感器 的 4 个 温度 值 和 调 速 量 来 控制 TMU。 当 温度 上 
升 时 ,第 一 个 温度 值 指明 处 理 单元 什么 时 候 结束 调 速 , 第 二 个 温度 值 指明 什么 时 候 开 始 调 
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速 , 第 三 个 温度 值 指明 什么 时 候 处 理 单元 完全 停止 运行 ,第 四 个 温度 值 指明 什么 时 候 芯 片 
的 时 钟 完全 关闭 。 前 两 个 温度 值 的 设置 有 一 定 的 滞后 ,以 避免 芯片 频繁 进行 调 速 。 当 只 
靠 调 速 不 能 完全 控制 芯片 温度 时 ,第 三 个 温度 值 的 设置 将 使 芯片 停止 工作 。 只 要 温度 值 
在 第 三 个 指定 值 之 下 ,处 理 单元 就 能 满足 应 用 程序 的 实时 性 要 求 。 当 温度 值 超出 第 四 个 
指定 的 安全 操作 温度 值 时 ,TMU 将 自动 关闭 芯片 时 钟 , 避 免 芯 片 的 永久 性 损坏 。 


3. 存储 访问 设计 


Cell BE 处 理 器 的 存储 结构 是 一 种 三 层 存储 结构 ,分 别 是 主 存 .SPE 本 地 存储 器 和 
SPE 寄存 器 文件 。PPE 通过 Load 和 Store 指令 完成 寄存 器 文件 与 主 存 之 间 的 数据 交换 。 
通过 DMA 完成 主 存 与 SPE 本 地 存储 器 之 间 的 数据 交换 。SPE 通过 访问 本 地 存储 来 获 
取 、 载 人 和 存储 指令 。 

这 种 三 层 存 储 结构 从 根本 上 摆脱 了 传统 的 存储 结构 和 编程 模式 , 它 在 计算 数据 交换 
和 指令 方面 实现 了 并 行 ,能 够 实现 数据 存 取 与 计算 之 间 的 重生 ,大 大 隐藏 了 存储 访问 延 
迟 。 由 于 大 部 分 的 数据 交换 都 是 在 SPE 的 本 地 存储 器 与 主 存 之 间 完 成 ,因此 DMA 方式 
可 大 大 降低 因 内 存 数据 存储 导致 的 程序 数据 延迟 。 

每 个 SPE 支持 16 路 DMA 同时 传输 ,因此 ,Cell BE 处 理 器 可 同时 支持 128 路 的 
DMA 传输 , 差不多 超过 传统 处 理 器 带宽 的 20 倍 。 同 时 ,SPE 没有 使 用 cache 而 使 用 本 地 
存储 器 ,虽然 cache 与 本 地 存储 器 都 是 采用 SRAM 实现 。 但 是 ,本 地 存储 器 是 静态 映射 ， 
其 内 部 数据 可 直接 通过 特定 的 地 址 空间 访问 。 而 cache 中 的 内 容 是 动态 映射 ,无 法 在 指 
令 中 使 用 特定 地 址 直接 访问 cache。 由 于 SPE 没有 cache, 它 的 性 能 将 不 受 cache 缺失 的 
影响 。 这 种 存储 结构 能 够 保证 高 效 的 数据 传输 效率 ,其 L/O 与 存储 总 带宽 超过 
100GB/s。 


4. EIB 设计 


EIB 是 Cell BE 处 理 器 中 通信 结构 的 核心 部 分 ,用 于 完成 PPE、SPE、 主 存 以 及 外 部 
1/O 之 间 的 通信 。EIB 为 命令 和 数据 设 有 分 离 的 通信 通道 ,每 个 总 线 单元 通过 点 对 点 的 
方式 连接 到 地 址 集中 器 ,地 址 集中 器 从 总 线 单元 接收 命令 并 将 命令 排序 , 按 顺 序 把 命令 广 
播 给 所 有 的 总 线 单元 (用 于 监听 ) ,然后 聚集 和 广播 命令 响应 ,命令 响应 是 某 个 单元 开始 数 
据 传输 的 信号 。 

EIB 数据 网 络 由 4 个 16B 宽 的 数据 环 组 成 : 两 个 按 顺 时 针 和 运行. 另外 两 个 按 逆 时 针 
运行 。 在 通道 不 重 释 的 情况 下 ,每 个 数据 环 最 多 能 允许 3 个 数据 并 发 传送 。 初 始 化 一 个 
数据 传送 ,总 线 单元 必须 请 求 数据 总 线 访问 。EIB 数据 仲裁 单元 处 理 这 些 请 求 , 决 定 哪个 
数据 环 应 该 处 理 哪 一 个 请 求 。 该 数据 仲裁 单元 总 是 选择 两 个 数据 环 中 传输 距离 最 短 的 那 
个 数据 环 ,这 样 做 可 确保 数据 不 用 传送 整个 行程 的 一 半 就 能 到 达 目 的 地 。 数 据 仲 裁 单元 
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也 可 对 传输 进行 调度 以 确保 它 不 会 涉及 其 他 的 传输 。 为 了 使 读 操 作 阻塞 最 小 化 ,数据 仲 
裁 单元 将 较 高 的 优先 级 赋予 给 来 自 内 存 控制 单元 的 请 求 , 对 来 自 其 他 单元 的 请 求 则 采取 
循环 的 方式 。 

EIB 以 处 理 器 的 一 半 时 钟 频率 运行 ,在 每 个 总 线 周 期 内 ,每 个 EIB 单元 能 同时 发 送 和 接 
收 16B 的 数据 。EIB 的 最 大 数据 带宽 受 系统 内 各 个 单元 监听 地 址 数量 的 限制 ,在 每 个 总 线 
周期 内 ,只 能 监听 一 个 地 址 。 每 个 监听 地 址 的 请 求 最 大 能 传送 128B,Cell BE 处 理 器 的 时 钟 
主 频 为 3. 2GHz, 所 以 理论 上 EIB 的 数据 带宽 峰值 为 128B。3. 2GHz/2— 204. 8GB/s. 


5. 安全 性 设计 


CBEA 安全 架构 的 主要 思想 是 : 从 系统 中 隔离 出 某 个 SPE 并 锁 住 其 本 地 存储 器 
(LS) ,只 有 当前 SPE 可 以 使 用 ,所 有 外 部 对 本 SPE 的 操作 均 无 效 。 所 有 互 连 总 线 (EIB) 
上 的 PPE、 其 他 SPE 以 及 1/0 发 出 的 对 该 被 隔离 SPE 的 本 地 存储 器 的 读 写 请 求 均 不 会 
对 被 锁 住 的 本 地 存储 器 造成 影响 。 一 旦 某 个 SPE 被 隔离 ,唯一 的 外 部 行为 就 是 取消 对 它 
的 隔离 。 此 时 ,在 外 部 访问 再 次 有 效 之 前 ,本 地 存储 器 和 SPE 中 的 所 有 数据 都 将 被 擦 除 。 

所 有 这 些 操作 均 由 硬件 而 非 使 用 软件 (比如 ,在 一 个 表格 中 设置 保护 位 等 ) 实 现 。 由 
于 是 完全 的 硬件 隔离 ,所 以 ,即便 是 操作 系统 或 系统 程序 都 不 能 访问 被 锁 住 的 本 地 存储 器 
和 控制 SPE 的 内 核 ,黑客 即使 获得 了 根 权限 或 系统 权限 也 不 能 对 在 被 隔离 的 SPE 上 执 
行 的 程序 构成 威胁 。 


2.4.4 发 展 情况 与 典型 实例 


2008 年 5 月 ,IBM、Sony、Toshiba 共同 发 布 了 第 二 代 Cell BE 芯片 一 一 PowerXCell 
Bi 处 理 器 。 第 一 代 Cell BE 处 理 器 的 单 精度 浮 点 运算 性 能 可 达 256GFLOPS, 但 一 旦 扩展 
为 双 精 度 ,其 运算 性 能 即 大 幅 下 滑 为 25GFLOPS。PowerXCell 8i 弥补 了 这 一 缺陷 ,使 用 
新 的 扩展 双 精 度 SPE 核心 (eDP SPE) ,在 保持 每 个 核心 256KB 缓存 容量 不 变 的 情况 下 ， 
PowerXCell 8i 处 理 器 的 双 精 度 浮 点 性 能 达到 了 第 一 代 Cell BE 处 理 器 的 5 倍 , 更 加 适合 
超级 计算 机 使 用 。 

Cell BE 处 理 器 除了 用 于 PS3 之 外 ,在 刀片 服务 器 上 也 得 到 了 广泛 的 应 用 。Cell BE 
引领 了 刀片 服务 器 的 新 时 代 , 刀 片 服务 器 利用 Cell BE 处 理 器 来 加 快 计算 密集 型 问题 的 
处 理 速度 ,以 满足 一 些 特殊 行业 的 需求 。IBM 分 别 于 2006 年 和 2007 年 推出 了 第 一 代 和 
第 二 代 的 刀片 系统 QS20 和 QS21, 并 于 2008 年 5 月 推出 了 第 三 代 刀 片 系统 QS22。 
QS22 搭载 了 两 个 PowerXCell 8i 处 理 器 (3. 2GHz 主 频 ), 最 大 可 支持 32GB 内 存 , 支 持 
SAS 硬盘 ,同时 可 支持 8GB 的 固态 硬盘 、 双 千 兆 网 络 或 Infiniband 高 速 网 络 接口 。 

刀片 服务 器 将 Cell BE 的 应 用 领域 扩展 到 医疗 影像 .航空 航天 、 防 务 .数字 动画 .通信 
以 及 石油 和 天 然 气 等 行业 ,大 大 改变 了 这 些 行业 的 面貌 。 以 下 是 一 些 具体 的 实例 。 
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医疗 行业 : 刀片 服务 器 可 大 大 减少 医生 比较 和 投射 三 维 医 疗 影像 所 需 的 时 间 , 这 些 
影像 通常 历经 数 月 甚至 数 年 的 积累 ,采用 不 同 的 分 辩 率 , 且 来 自 多 种 不 同 的 设备 。 在 刀片 
服务 器 上 运行 医疗 影像 应 用 可 帮助 医生 在 数秒 而 非 数 分 钟 内 投射 多 幅 医 疗 影像 ,这 不 仅 
提高 了 医疗 影像 投射 的 精度 ,而 且 减 少 了 诊断 时 间 和 病人 的 焦虑 。 

航空 航天 和 防务 领域 : 航空 航天 领域 中 的 信号 处 理 和 雷达 结果 需要 将 位 置 、 地 形 与 
速度 、 精 度 等 结合 在 一 起 。 运 行 在 刀片 服务 器 上 的 雷达 应 用 和 解决 方案 可 提高 雷达 输出 
的 保 真 度 和 分 状 率 ,这 意味 着 操作 员 可 通过 现 有 雷达 系统 看 到 之 前 从 未 看 到 过 的 物体 和 
信息 。 

石油 和 天 然 气 行业 : 石油 公司 可 通过 地 震 成 像 的 最 新 技术 ,在 更 短 的 时 间 内 以 更 高 
的 精度 对 石油 进行 定位 ,大 大 提高 了 钻井 的 成 功率 ,从 而 获得 丰厚 的 利润 。 另 一 方面 , 降 
低 了 钻井 的 失误 率 , 也 意味 着 节省 了 钻井 成 本 。 

另外 ,Cell BE 在 一 些 图 像 处 理 系 统 中 也 得 到 了 应 用 。2008 年 , 丽 台 (Leadtek) 推 出 
了 源 于 Cell BE 芯片 的 视频 编 /解码 加 速 卡 。2010 年 7 月 ,Toshiba 推出 了 采用 第 二 代 
Cell BE 处 理 器 的 3D 高 清 电视 ,搭载 了 240Hz 的 四 倍速 技术 和 全 新 的 3D 超 解 像 技术 ,在 
观看 普通 清晰 度 3D 节目 源 时 提升 了 清晰 度 表 现 , 其 原理 虽 与 之 前 的 技术 类 似 , 但 是 在 数 
据 的 处 理 能 力 上 , 却 有 了 数 倍 的 提升 。 


Rene 


本 节 主 要 介绍 了 典型 的 异 构 多 核 处 理 器 Cell BE 的 系统 结构 cache 管理 、 片 内 通信 
以 及 其 主要 特点 和 发 展 情况 。Cell BE 由 1 个 PPE 和 8 个 SPE 组 成 ,PPE 负责 运行 操作 
系统 .管理 系统 资源 、 完 成 任务 分 配 和 SPE 调度 , 它 包 含 一 个 64 位 的 PowerPC 处 理 器 单 
元 、 两 个 独立 的 32KB 大 小 的 一 级 指令 缓存 和 一 级 数据 缓存 以 及 一 个 共享 的 512KB 的 二 
级 缓存 。SPE 是 基于 SIMD 精简 指令 集 的 加 速 核心 ,由 双 发 射流 水 线 SPU 与 MFC 组 
成 ,拥有 一 块 256KB 的 私有 存储 和 一 个 128X128 位 的 寄存 器 文件 。PPE 与 SPE 之 间 通 
过 EBI 连接 起 来 ,并 可 通过 BEI 5 1/0 设备 进行 通信 或 对 多 Cell BE 处 理 器 进行 互 连 。 
Cell BE 处 理 器 独特 的 架构 设计 ,突破 了 处 理 器 发 展 的 内 存 壁垒. 功 耗 攻 又 和 频率 壁 人 ,为 
处 理 器 在 异 构 多 核 方向 的 发 展 莫 定 了 基础 。 


2.5 超级 计算 机 


1993 年 ,在 德国 曼 海 姆 大 学 ,Hans Meuer 和 Erich Strohmaier 创建 了 世界 上 最 权威 
的 超级 计算 机 排名 榜 一 一 全 球 超 级 计算 机 TOP500。TOP500 以 超级 计算 机 系统 的 
Linpack 测试 值 为 基准 进行 排名 ,每 年 发 布 两 次 。 超 级 计算 机 代表 了 一 个 国家 在 计算 机 
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研发 和 应 用 方面 的 最 高 水 平 ,所 以 每 次 TOP500 的 公布 都 可 以 显示 一 个 国家 在 高 性 能 计 
算 方 面 的 科研 实力 。 

简单 来 说 ,超级 计算 机 就 是 计算 机 中 功能 最 强 、 运 算 速 度 最 快 .存储 容量 最 大 的 一 类 
计算 机 ,通常 是 指 由 数 干 个 甚至 更 多 的 处 理 器 (机 ) 组 成 的 .能 运算 普通 PC 和 服务 器 不 能 
完成 的 大 型 复杂 课题 的 计算 机 。 在 高 运算 速度 前 提 下 ,人 们 可 通过 数值 模拟 来 预测 和 解 
释 以 前 无 法 进行 实验 的 重大 问题 。 许 多 重要 的 应 用 领域 (如 密码 破译 、 武 器 研制 ,高 精度 
气象 预报 地球 系统 模式 以 及 新 材料 研究 等 ) 都 对 使 用 高 性 能 计算 机 提出 了 强烈 需求 。 

世界 上 ,许多 发 达 国 家 的 政府 都 大 力 支 持 研 究 机 构 开 发 高 性 能 计算 机 。 从 TOP500 
排名 的 历史 来 看 ,美国 ,英国 法国、 德国 ,日 本 都 是 高 性 能 计算 机 研发 .应 用 的 传统 强国 。 
而 近年 来 ,印度 、 韩 国 也 加 大 了 对 高 性 能 计算 机 的 支持 力度 ,有 多 台 计 算 机 系统 进入 
TOP500 榜 单 。 我 国 也 加 大 了 对 高 性 能 计算 机 的 支持 力度 ,特别 是 在 第 36 届 TOP500 排 
名 中 ,天 河 一 号 二 期 系统 一 举 超过 美国 橡树 岭 国家 实验 室 的 “美洲 虎 " 超 级 计算 机 而 雄 中 
首位 。 同 时 在 第 36 届 TOP500 排名 中 ,中 国 入 选 了 41 台 高 性 能 计算 机 , 仅 次 于 美国 。 这 
都 体现 了 我 国 在 高 性 能 计算 机 领域 较 强 的 研发 能 力 。 


2.5.1 超级 计算 机 的 发 展 与 规律 


在 20 世纪 70 年 代 出 现 的 向 量 计算 机 可 被 看 作 是 第 一 代 的 高 性 能 计算 机 。 通 过 在 计 
算 机 中 加 入 向 量 流水 部 件 ,可 大 大 提高 科学 计算 中 向 量 运算 的 速度 ,其 中 比较 著名 的 有 
CDC 系列 .CRAY 系列 .NEC 的 SX 系列 向 量 机 。 我 国有 代表 性 的 是 由 中 国 科学 院 计 算 
技术 研究 所 (简称 为 中 科 院 计算 所 ) 研 制 的 757 计算 机 (如 图 2-42(a) 所 示 ) 和 由 中 国 国防 


(2) 中 科 院 计算 所 研制 的 757 计 算 机 (6) 中 国 国防 科学 技术 大 学 研制 的 银河 一 号 
图 2-42 中 国 第 一 代 向 量 计算 机 
20 世纪 80 年 代 初 , 随 着 VLSI 技术 和 微 处 理 器 技术 的 发 展 ,向 量 机 一 统 天 下 的 格局 


逐渐 被 打破 。 从 成 本 上 来 说 ,由 多 个 廉价 征 处 理 器 组 成 的 并 行 化 超级 计算 机 具有 无 可 比 
拟 的 优势 。“ 人 性 能 /价格 比 ? 而 非 单一 性 能 成 为 衡量 高 性 能 计算 机 系统 的 重要 指标 。 按 照 


$ 


m 
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摩尔 定律 , 微 处 理 器 的 性 能 快速 超越 了 传统 的 向 量 机 。 

20 世纪 90 年 代 初 ,大 规模 并 行 处 理 (MPP) 系 统 已 开始 成 为 高 性 能 计算 机 发 展 的 主 
流 。MPP 主要 由 多 个 处 理 器 通过 高 速 互联 网 构成 ,处 理 器 之 间 通 过 消息 传递 的 方式 进行 
通信 与 协调 。 具 有 代表 性 的 是 TMC CM-5( 如 图 2-43 (a) 所 示 ) 和 Intel Paragon( 如 
图 2-43(b) 所 示 )。 我 国 第 一 台 MPP 系统 是 由 中 科 院 计算 所 国家 智能 机 中 心 研制 的 曙光 
1000( 如 图 2-43(c) 所 示 )。 比 MPP 系统 早 几 年 问世 的 对 称 多 处 理 机 SMP 系统 ,是 由 数 
目 相 对 较 少 的 处 理 器 共享 物理 内 存 和 1/O 总 线形 成 的 计算 机 系统 ,我 国 最 早 的 SMP 是 
由 中 科 院 计算 所 国家 智能 机 中 心 研制 的 曙光 1 号 。 与 MPP 系统 相 比 ,早期 的 SMP 系统 
的 扩展 能 力 有 限 , 并 不 具有 很 强 的 计算 能 力 。 但 由 于 SMP 系统 与 单机 系统 的 兼容 性 较 
好 ,是 单机 系统 的 升级 与 增强 ,在 当时 被 广泛 应 用 于 商业 计算 领域 。 第 一 届 TOP500 排 
名 中 位 列 第 一 的 超级 计算 机 是 TMC CM-5 ,其 由 1024 个 处 理 器 组 成 ,具有 每 秒 600 亿 次 


浮 点 运算 能 力 。 


(a) TMC CM-5 (b) Intel Paragon (c) 曙光 1000 


图 2-43 MPP 系统 


20 世纪 90 年 代 中 后 期 ,一 种 趋势 是 将 SMP 系统 的 优点 与 MPP 系统 的 扩展 能 力 相 
结合 ,从 而 发 展 成 为 后 来 的 CC-NUMA 结构 , 即 分 布 式 共享 内 存 。 其 每 个 处 理 器 结 点 均 
可 访问 到 所 有 其 他 结 点 的 内 存 , 但 访问 远程 内 存 时 延迟 相对 较 大 。 代 表 性 的 系统 有 
Sequent NUMA-Q,SGI-Cray Origin、 我 国 的 神威 与 银河 系列 等 。 在 提高 性 能 方面 ,CC- 
NUMA 结构 本 身 并 未 进行 较 大 的 创新 ,其 主要 优点 在 于 程序 的 开发 和 与 SMP 系统 的 兼 
容 性 。 

在 发 展 CC-NUMA 结构 的 同时 ,机 群 系统 (Cluster) 也 迅速 发 展 了 起 来 。 类 似 MPP 
系统 ,机群 系统 是 由 高 速 网 络 将 多 个 处 理 器 互 连 而 成 ,但 其 结 点 一 般 是 可 单独 运行 的 商品 
化 计算 机 。 由 于 规模 经 济 成 本 低 的 原因 ,机 群 系统 具有 比 MPP 系统 更 高 的 性 能 /价格 比 
优势 。 同 时 ,机 群 系统 还 继承 了 MPP 系统 的 编程 模型 ,更 进一步 加 强 了 其 竞争 优势 。 具 
有 代表 性 的 机 群 系统 有 IBM SP2 E6 3000 和 4000( 如 图 2-44 所 示 ) 等 。 从 2000 年 开 
始 ,机 群 系统 实际 上 已 构成 了 高 性 能 计算 机 系统 的 主流 ,到 了 2010 年 11 月 ,TOP500 排 
名 中 机 群 系统 达到 了 415 f. 
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(a) 曙光 3000 机 群 系统 (b) 曙光 4000 机 群 系统 
图 2-44 明光 3000 和 曙光 4000 机 群 系统 


2008 年 ,IBM 推出 了 以 Roadrunner( 如 图 2-45 所 示 ) 为 代表 的 新 型 低 功 耗 的 高 能 效 
系统 ,运算 速度 首次 突破 了 1Petaflops( 即 千 万 亿 次 / 秒 ) 。Roadrunner 首次 将 传统 的 超级 
计算 机 处 理 器 与 专 为 Sony PS3 所 设计 的 Cell 芯片 相 结合 ,这 就 意味 着 IBM 首次 将 异 构 
计算 引入 其 超级 计算 机 中 。 近 年 来 ,在 高 性 能 计算 (HPC) 领域 中 ,与 多 核 一 起 崛起 的 一 
个 新 的 趋势 就 是 异 构 计 算 , 这 在 国际 高 性 能 计算 领域 又 掀起 了 一 阵 热潮 ,被 公认 为 提高 
HPC 性 能 的 有 效 手段 。 在 2008 年 6 月 的 TOP500 排名 中 ,也 首次 提供 了 计算 机 的 节能 
排名 。 该 节能 排名 主要 是 看 计算 机 系统 在 运行 一 个 典型 HPC 应 用 时 的 能 耗 情 况 ,并 没 
有 考虑 外 部 制冷 .磁盘 以 及 其 他 外 部 环境 带 来 的 能 耗 影 响 。 在 今后 的 计算 技术 发 展 趋势 
中 ,低能 耗 应 该 成 为 一 个 重要 的 衡量 标准 。 在 高 性 能 计算 机 系统 结构 研究 方面 ,许多 国家 
都 在 积极 进行 新 的 尝试 。 


Æ 2-45 IBM Roadrunner 超级 计算 机 


综 上 所 述 , 从 20 世纪 70 年 代 至 今 ,高 性 能 计算 机 的 体系 结构 主要 经 历 了 如 下 四 次 
变革 : 


并 行 计 算 机 及 编程 基础 


以 向 量 机 、SIMD 为 代表 的 数据 并 行 系统 (Data Parallel System); 
以 MPP, Scalar SMPs, Constellations 为 代表 的 定制 可 扩展 系统 (Custom Scalar 
System); 
以 机 群 、 刀 片 为 代表 的 商业 化 机 群 系统 (Commodity Cluster System) ; 
以 BlueGene 系列 为 代表 的 高 能 效 系统 (Power Efficient System). 

从 表 2-5 可 以 看 出 ,高 性 能 计算 机 的 体系 结构 每 隔 十 年 就 有 一 次 重大 的 突破 ,而 性 能 
则 相应 地 提高 了 一 千 倍 。 自 20 世纪 60 年 代 CDC6600 推出 以 来 ,至 今 高 性 能 计算 机 的 性 
能 已 提高 了 约 十 亿 倍 。 根 据 TOP500 的 历史 数据 进行 预测 ,2019 年 人 类 将 进入 艾 级 
(ExaFlops, 百 万 万 亿 次 ) 计 算 时 代 。 


RIS 高 性 能 计算 机 体系 结构 的 发 展 


阶段 萌芽 阶段 向 量 机 阶段 MPP 系统 阶段 ”| MPP 十 机 群 系统 阶段 
(1960—1975) (1976—1989) (1990—1999) (2000—2011) 
Intel Paragon 
CDC 6600 TMC CM-5 IBM BlueGene P 
Cray-1/2/3 
典型 系统 STAR-100 NE Cray T3D IBM RoadRunner 
ILLIAC-IV i Intel Option Red | 国防 科大 的 天 河 一 号 
Blue Mountain 
性 能 M FLOPS 量 级 G FLOPS fitt T FLOPS lit P FLOPS 量 级 


表 2-6 展示 了 一 些 高 性 能 计算 体系 结构 从 出 现 到 流行 再 到 逐渐 消亡 的 发 展 过 程 。 从 
表 2-6 中 可 以 发 现 一 个 规律 , 即 每 一 种 高 性 能 计算 机 体系 结构 从 早期 出 现 到 成 为 主流 结 
构 一 般 经 历 了 10 年 ,随后 再 经 过 10 年 逐渐 被 淘汰 。 以 MPP 系统 为 例 ,1976 年 ILLIAC 
IV 第 一 次 将 多 个 处 理 器 进行 互 连 实现 并 行 处 理 ; 20 世纪 80 年 代 开 始 逐 渐 涌 现 出 一 些 
MPP 高 性 能 计算 系统 ,包括 GoodyearMPP、CM 等 ; 进入 20 世纪 90 年 代 MPP 系统 替代 
向 量 机 成 为 高 性 能 计算 的 主流 结构 ,20 世纪 90 年 代 中 期 MPP 系统 在 TOP500 中 的 比例 
已 超过 80765 随 着 机 群 的 兴起 ,MPP 系统 的 比例 又 开始 逐渐 下 降 , 到 2009 年 11 月 ,MPP 
系统 在 TOP500 中 的 比例 只 占 到 了 1626. 


R26 高 性 能 计算 机 体系 结构 的 演变 


年 度 1980 1990 2000 2010 
SIMD SMP--S2MP MPP Cluster 

体系 结构 Single Processor MPP Constellations MPP 
SMP Single Processor Cluster Constellations 
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高 性 能 计算 机 体系 结构 的 变迁 周期 从 某 种 程度 上 预示 着 一 个 新 趋势 : 性 能 / 功 耗 比 
更 高 的 高 能 效 计算 机 ,将 从 2010 年 开始 替代 自 20 世纪 90 年 代 兴 起 的 机 群 系统 ,而 成 为 
高 性 能 计算 体系 结构 的 主流 ,这 种 趋势 将 持续 到 21 世纪 20 年 代 中 期 。 因 此 ,以 
BlueGene, RoadRunner 等 为 代表 的 高 能 效 计算 机 在 2020 年 之 前 仍 将 是 高 性 能 计算 机 的 
主流 体系 结构 ,预计 在 2019 年 左右 出 现 的 艾 级 超级 计算 机 很 可 能 还 会 采用 这 种 结构 。 

2.5.2 超级 计算 机 的 现状 

2010 4E 11 月 16 日 ,在 美国 新 奥尔良 举行 的 SCIO 大 会 上 ,发 布 了 第 36 届 TOP500 
排名 。 经 过 技术 升级 的 我 国 “天 河 一 号 ?二 期 系统 (天 河 -1A, 如 图 2-46 所 示 ) 一 举 超过 美 
国 橡树 岭 国家 实验 室 的 “美洲 豹 "超级 计算 机 而 雄 路 首位 .“ 天 河 一 号 "系统 于 2009 年 10 
月 底 由 中 国 国防 科学 技术 大 学 研制 .于 2010 年 在 中 国 国家 超级 计算 天 津 中 心安 装 部 署 ， 
其 问世 标志 着 中 国 成 为 继 美国 之 后 ,第 二 个 能 够 研制 千 万 亿 次 超级 计算 机 的 国家 。 


11 II 


! Wi 
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在 第 36 届 TOP500 排名 前 十 的 计算 机 系统 中 ,有 七 台 计 算 机 系统 的 运算 能 力 超过 了 
千 万 亿 次 ,其 中 五 台 为 新 上 榜 的 机 器 。 在 排名 前 十 的 计算 机 系统 中 ,有 五 台 计算 机 系统 是 
由 美国 公司 制造 ,其 他 分 别 来 自 中 国 ( 两 台 ) .日 本 (一 台 ) 法 国 (一 台 ) 以 及 德国 (一 台 ) 。 
图 2-47 列 出 了 第 36 届 TOP500 排名 前 十 的 超级 计算 机 。 

在 本 届 TOP500 排名 的 计算 机 系统 中 ,中 国 从 上 一 届 入 选 的 24 台 跃 升 至 本 届 的 41 
台 ,排名 一 举 超 过 日 本 法国、 德国 和 英国 而 跃 居 第 二 , 仅 次 于 美国 。 美 国 依然 处 于 HPC 
系统 的 领导 地 位 ,在 本 届 TOP500 排名 中 占有 275 台 , 低 于 上 一 届 的 282 台 。 欧 洲 共 占有 
124 台 , 低 于 上 一 届 的 144 台 , 但 仍 多 于 亚洲 。 在 欧洲 ,法 国 和 德国 赶 上 了 英国 ,英国 从 上 
一 届 的 38 台 下 降 至 本 届 的 25 台 ,法国 本 届 占 有 26 ACE 29 台 ) ,德国 占有 26 台 ( 上 届 
24 台 )。 亚 洲 共 占 有 84 台 , 高 于 上 一 届 的 57 台 。 其 中 ,中 国 占有 41 台 ( 在 亚洲 占 主导 地 
位 ,上 届 24 台 ), 日 本 占有 26 台 ( 上 届 18 台 ), 印 度 占 有 4 台 ( 上 届 5 台 )。 


a 


-$ 


并 行 计算 机 及 编程 基础 
Rank Site System Cores Rmax Rpeak 
NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA 
1 National Supercomputing Center in Tianjin GPU, FT-1000 8C 486368 2566 4701 
China 
NUDT 
DOE/SC/Oak Ridge National Laboratory Cray XT5-HE Opteron 6-core 2.6 GHz 
2 United States Cray Inc. 224162 1758 — 2331 
National Supercomputing Centre in Shenzhen Dawning TC3600 Blade, Intel X5650, NVidia 
3 (NSCS) Tesla C2050 GPU 120640 1271 29843 
China Dawning 
F HP ProLiant SL390s G7 Xeon 6C X5670 
4 SEIC Center, Tokyo Institute of Technology Nvidia GPU, LinuuWindows 73278 1192 228763 
e: NECHP 
DOE/SCILBNLINERSC Cray XE6 12-core 2 1 GHz 
5 IAE cut 153408 1054 1288.63 
Commissariat a l'Energie Atomique (CEA) Bull bullx super-node S6010/56030 
5 Comum Bana 138368 1050 — 125455 
BladeCenter QS22ILS21 Cluster, PowerXCell 
DOEINNSAILANL 83.2 Ghz Opteron DC 1.8 GHz Voltaire 
7 Uned States Infiniband Teto ve TH 
IBM 
National Institute for Computational si Y g " 
8 Sciences/University of Tennessee Qua XDEHE OPORA core 2-8 Gr 98928 8317 102885 
United States d 
Forschungszentrum Juelich (FZJ) Blue Gene/P Solution 
9 Herrn E 204912 8255 10027 
DOE/NNSAILANUSNL CrayXE6 8-core 2.4 GHz 
这 eds 107152 8165 1028.66 


图 2-47 $836 TOP500 排名 前 十 的 超级 计算 机 


新 上 榜 的 超级 计算 机 与 图 形 处 理 器 的 发 展 不 无 关系 ,这 再 次 说 明了 异 构 计算 是 未 来 
超级 计算 机 的 重要 发 展 方向 。 表 现 出 众 的 天 河 一 号 (中 国 ) 和 TSUBAME H 2.0( 日 本 ) 
都 使 用 了 NVIDIA 图 形 处 理 器 来 加 快运 算 速 度 。 在 本 届 TOP500 排名 的 计算 机 系统 中 ， 
有 17 款 计 算 机 系统 使 用 了 图 形 处 理 器 。 其 中 ,六 款 使 用 的 是 Cell 处 理 器 ,10 款 使 用 的 是 
NVIDIA 处 理 器 ,还 有 一 款 使 用 的 是 ATI Radeon 处 理 器 。 

在 超级 计算 机 体系 结构 方面 ,本 届 TOP10 中 Cluster 结构 和 MPP 结构 各 占有 5 台 
机 器 ,平分 秋色 。Cray 的 “美洲 豹 "“ 跳 跃 者 "“ 海 怪 " 和 "天 空 " 以 及 IBM 的 “Blue Gene/ 
PSolution ”都 采用 了 MPP 结构 ; 中 国 国防 科学 技术 大 学 的 “天 河 一 号 ”曙光 的 “星云 ” 
日 本 的 “TSUBAME & 2. 0” iX Ed fl] " Bull Tera-100" fl IBM“ 走 鹏 ?系统 都 采用 了 Cluster 
结构 。 在 本 届 TOP500 超级 计算 机 系统 中 ,Cluster 结构 仍 是 主要 使 用 的 结构 ,但 所 占 数 
量 略 有 下 降 , 本 届 占 有 415 台 ( 上 届 为 424 台 )。 采 用 MPP 结构 的 系统 数量 略 有 增加 ,从 
上 届 的 74 台 增 加 到 83 台 ,虽然 MPP 结构 的 系统 在 TOP500 中 占有 的 数量 不 多 ,但 是 它 
主打 高 端 市 场 。 

在 本 届 TOP10 排行 榜 中 ,Cray“ 跳 跃 者 ”采用 十 二 核 处 理 器 ,IBM“ 走 鹃 ”采用 九 核 处 
理 器 ,Cray“ 天 空 ”与 “Bull Tera-100” 采 用 八 核 处 理 器 ,Cray“ 美 洲 豹 ”与 “ 海 怪 ”“ 天 河 一 
号 ”“ 星 云 "? 和 “TSUBAME 3 2.0” 都 采用 六 核 处 理 器 ,余下 的 一 台 采 用 了 四 核 处 理 器 。 
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由 此 可 见 , 在 超级 计算 机 系统 中 ,四 核 处 理 器 将 逐渐 被 淘汰 ,六 核 处 理 器 趋 于 主流 ,而 六 核 
以 上 人 处理 器 趋 于 流行 。 多 核 技术 能 够 使 服务 器 并 行 处 理 任务 ,多核 系 统 更 易于 扩展 ,并 且 
能 够 在 更 纤巧 的 外 形 中 融入 更 强大 的 处 理性 能 ,其 所 需 的 功 耗 更 低 、 产 生 的 热量 更 少 。 
在 本 届 TOP10 的 排名 中 ,来 自 中 国 的 两 台 超 级 计算 机 系统 "天河 -1A” 与 “星云 "和 由 
日 本 东京 工业 大 学 研制 的 “TSUBAME $ 2.0” 系 统 都 采用 了 NVIDIA GPU 来 提升 系统 
的 整体 性 能 。 在 本 届 TOP500 中 取得 第 一 位 的 天 河 -1A 超级 计算 机 就 采用 了 多 核心 
CPU 与 GPU 相 结合 的 异 构架 构 , 在 性 能 、 功 耗 、 占 地 面积 上 取得 巨大 的 突破 。 从 “天 
河 -1A” 与 “星云 "在 TOP500 所 处 的 领先 位 置 以 及 日 本 TSUBAME 燕 2. 0" 系 统 的 加 入 ， 
可 以 看 出 在 高 性 能 计算 领域 中 CPU 十 GPU 的 混合 架构 越 来 越 流行 。 
在 本 届 TOP500 中 , 功 耗 已 成 为 评价 一 个 系统 性 能 和 架构 趋势 的 关键 性 指标 。 随 着 
功 耗 的 增加 ,系统 的 计算 效率 也 在 提高 。 对 于 现代 超级 计算 机 来 说 ,节能 和 性 能 同等 重 
要 ,而 且 二 者 完全 可 以 共存 。 计 算 密度 更 高 , 功 耗 更 低 、 性 能 更 强 的 超级 计算 机 正在 不 断 
地 涌现 。 在 此 之 前 ,超级 计算 机 几乎 成 为 高 功 耗 的 代名词 ,每 年 的 运营 成 本 极 高 , 随 着 厂 
商 对 低 碳 的 重视 ,近年 来 出 现 的 系统 几乎 都 基于 低 功 耗 设 计 。 通 过 这 些 设 计 , 不 仅 可 以 降 
低能 耗 ,提高 每 瓦特 性 能 ,而 且 减少 了 在 制冷 方面 的 支出 。 在 本 届 TOP500 中 ,系统 功 耗 
方面 的 统计 信息 如 下 s 
* 25 台 计 算 机 系统 的 功 耗 大 致 在 1MW; 
* IBM 新 的 BlueGene/Q 计算 机 系统 原型 创造 了 1680MFLOPS/W 功 耗 效率 的 新 
记录 ; 
。 在 TOP500 的 超级 计算 机 系统 中 ,平均 功 耗 为 477KW, 平 均 功 耗 效率 为 
195MFLOPS/W, 相 比 一 年 之 前 的 150MFLOPS/W 有 所 上 升 ; 
* 在 TOP10 的 超级 计算 机 系统 中 , 相 比 6 个 月 前 ,平均 功 耗 由 2. 89MW 缓慢 提升 
为 3. 2MW ,平均 功 耗 效率 由 300MFLOPS/W 略微 下 降 为 268MFLOPS/W。 


2.5.3 超级 计算 机 面临 的 挑战 


按照 过 去 的 趋势 来 推算 ,在 2019 年 应 能 出 现 峰 值 速度 超过 每 秒 百 亿 亿 次 运算 
(EFLOPS,1018FLOPS) 的 系统 。 但 如 果 按 传统 方式 采用 通用 CPU 等 部 件 来 构建 百 亿 
亿 次 高 性 能 计算 机 ,将 遇 到 功 耗 成 本 、 可 用 性 等 多 方面 的 重大 挑战 。 

LLBL 进行 的 一 项 研究 表明 ,使 用 现 有 的 Cluster 技术 构建 200PFLOPS 的 系统 ,如 
果 使 用 AMD Opteron CPU( 处 理 器 频率 为 2. 8GHz) 的 话 ,将 需要 18 亿美 元 的 成 本 , 功 耗 
为 175MW。 如 果 使 用 IBM 的 BlueGene/L( 处 理 器 频率 为 700MHz) 的 话 ,成 本 也 高 达 26 
亿美 元 , 功 耗 为 27MW 。 

高 达 数 十 亿美 元 的 成 本 将 使 得 EFLOPS 计算 机 的 构建 面临 巨大 的 挑战 。 与 此 同时 ， 
数 十 至 数 百 兆 瓦 的 功 耗 也 成 为 高 性 能 计算 机 在 部 署 和 使 用 过 程 中 的 重大 障碍 。 由 于 耗 电 
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量 巨大 ,甚至 需要 为 高 性 能 计算 机 单独 设置 发 电站 和 供电 线路 。 巨 大 的 系统 功 耗 还 对 散 
热 系 统 提 出 了 极 高 的 要 求 。 所 有 这 些 因素 ,都 将 进一步 增加 高 性 能 计算 机 的 部 署 成 本 和 
使 用 成 本 。 

综 上 所 述 ,要 研制 性 能 达到 EFLOPS 的 下 一 代 高 性 能 计算 机 ,就 必须 对 现 有 的 计算 
机 系统 结构 进行 重大 变革 。 


1. 众 核 技术 


利用 众 核 技术 构造 低 功 耗 处 理 器 是 目前 国内 外 开展 低 功 耗 体 系 结构 研究 的 主流 方 
式 。 该 技术 的 基础 是 : 芯片 在 高 频 区 间 的 动态 功 耗 与 频率 的 三 次 方 近似 成 正比 。 因 此 ， 
通过 众 核 技术 (虽然 单个 核 的 主 频 较 低 , 但 是 多 个 核 并 行 执行 ) 可 得 到 较 好 的 系统 性 能 , 同 
时 较 低 的 主 频 使 得 众 核 芯片 的 功 耗 较 单 核 高 主 频 芯片 要 低 很 多 。 根 据 众 核 芯 片 在 整个 计 
算 系统 中 的 使 用 方式 ,可 将 众 核 技 术 分 为 同 构 众 核 和 异 构 众 核 两 种 方式 。 

1) 同 构 众 核 技 术 

IBM 的 BlueGene 系列 芯片 是 低 功 耗 同 构 众 核 处 理 器 的 典型 代表 。BlueGene/L 已 
被 IBM 用 于 构建 多 台 PFLOPS 级 的 系统 。 与 此 同时 ,IBM 还 启动 了 BlueGene/C 计划 
(又 称 Cyclops64) 。Cyclops64 处 理 器 在 一 个 芯片 内 封装 了 80 个 处 理 器 核心 ,工作 频率 
为 500MHz, 每 个 核心 包括 一 个 64 位 的 浮 点 运算 单元 和 两 个 线程 单元 ,使 得 每 个 核心 可 
同时 执行 两 个 线程 ,整个 芯片 的 峰值 速度 可 达 80GFLOPS。 一 个 完整 的 Cyclops64 系统 
由 24X24X24 个 芯片 连接 而 成 ,峰值 速度 为 1. 1PFLOPS。 可 以 看 出 ,与 BlueGene/L fil 
比 ,Cyclops64 在 单个 芯片 内 集成 了 更 多 的 芯片 ,大 大 减少 了 构建 高 性 能 计算 系统 所 需 的 
芯片 数 ,从 而 可 有 效 降低 成 本 和 功 耗 。Cyclops64 的 体系 结构 如 图 2-48 所 示 。 
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图 2-48 Cyclops64 的 体系 结构 
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与 目前 主流 的 通用 处 理 器 (例如 , Intel 5650 处 理 器 ,2. 66GHz, 六 核 ,峰值 速度 为 
64GFLOPS , 功 耗 为 95W) 相 比 , 众 核 处 理 器 的 频率 较 低 , 但 核 数 较 多 , 它 利 用 向 量 处 理 单 
元 提高 峰值 速度 ,处 理 芯片 的 性 能 / 功 耗 比 得 到 了 显著 提高 。 

同 构 众 核 技术 的 优势 在 于 对 现 有 应 用 具有 较 好 的 继承 性 ,单个 核 上 基本 都 可 以 运行 
操作 系统 (或 简化 的 操作 系统 ) ,并 支持 MPI 编程 模型 ,从 而 使 现 有 的 大 量 MPI 应 用 程序 
不 用 修改 或 稍 加 修改 即 可 在 这 类 系统 上 运行 。 

2) 异 构 众 核 技术 

目前 主流 的 异 构 多 核 / 众 核 处 理 器 主要 有 如 下 两 类 : 

。 一 类 是 IBM 的 Cell BE 芯片 ,采用 1 个 通用 的 PPE 和 8 个 向 量 SPE, 用 于 高 性 能 
计算 的 PowerXCell 8i 可 达到 102 GFLOPS 的 双 精 度 浮 点 性 能 ,世界 上 首 台 超 
PFLOPS 的 系统 就 是 IBM 基于 Cell BE 和 AMD Opteron 平台 混合 构建 的 
RoadRunner 系统 ; 

另 一 类 异 构 众 核 处 理 器 是 图 形 处 理 器 (GPU)。 自 从 NVIDIA 推出 CUDA 语言 以 
来 ,使 用 图 形 处 理 器 进行 通用 编程 得 到 了 广泛 接受 。 最 新 的 GPU, 如 NVIDIA 
Fermi 已 克服 了 第 一 代 GPU 的 部 分 缺陷 (如 双 精 度 浮 点 计算 能 力 较 差 , 内 存 访问 
没有 ECC 校 验 等 ) ,以 其 相对 低廉 的 成 本 成 为 构建 高 性 能 计算 机 的 一 种 流行 方 
式 。 曙 光 的 星云 计算 机 就 是 通过 使 用 NVIDIA Fermi 图 形 处 理 器 ,获得 了 超 
1PFLOPS 的 实测 Linpack 性 能 ,成 为 目前 (第 36 届 )Top500 上 排名 第 三 的 系统 。 

除了 以 上 两 种 主流 的 异 构 多 核 加 速 器 芯片 外 ,还 有 诸如 ClearSpeed Tilera64 等 加 速 
器 ,但 由 于 产量 较 低 、 价 格 相对 较 贵 ,并 未 得 到 广泛 的 应 用 。 

异 构 众 核 技术 ,特别 是 GPU 技术 ,由 于 其 产量 巨大 带 来 的 规模 成 本 优势 将 成 为 未 来 
一 段 时 期 构建 高 性 能 计算 机 的 流行 方式 。 但 是 这 种 方式 也 有 其 自身 的 缺点 : 

。 应 用 开发 困难 。 必 须要 对 原 有 的 高 性 能 计算 应 用 进行 显 式 划分 ,确定 哪些 部 分 在 

主 CPU 上 运行 ,哪些 部 分 在 GPU 上 运行 。 

* 划分 到 GPU 上 的 任务 ,其 编程 比较 困难 。 由 于 GPU 上 的 “ 核 ” 通 常 比较 简单 ( 例 
W, NVIDIA GPU 上 的 “ 核 " 更 类 似 于 一 个 向 量 处 理 单元 ) ,而 且 GPU 还 不 支持 动 
态 内 存 分 配 和 锁 操作 等 。 因 此 ,对 于 GPU 上 的 程序 设计 与 优化 比 起 通用 CPU 来 
说 更 困难 。 

因此 ,尽管 GPU 加 速 器 技术 可 以 提供 很 好 的 Linpack 性 能 ,但 如 何 提高 GPU 的 可 
编程 性 ,将 是 关系 到 使 用 GPU 来 构建 未 来 高 性 能 计算 机 系统 的 关键 问题 之 一 。 


2. 新 的 半导体 工艺 


目前 ,希望 在 器 件 方面 取得 突破 ,以 期 做 出 更 快 、 更 省 电 、 集 成 度 更 高 的 芯片 。 在 处 理 
器 工艺 上 ,国际 上 对 可 能 替代 CMOS 的 其 他 集成 电路 技术 (例如 ,光学 蕊 片 、 分 子 芯 片 等 
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进行 了 探索 ,但 是 现 有 的 新 工艺 技术 与 CMOS 相 比 , 并 不 具有 显著 的 优势 。 

国际 上 ,学 术 界 和 工业 界 对 内 存 新 工艺 的 研究 也 非常 活跃 , 例如 , 铁 存 储 器 
(FeRAM) 、 磁 存储 器 (MRAMD) 、 相 变 存储 器 (PCRAM) 以 及 忆 阻 器 (Memrisistor) 等 方面 
的 研究 。 从 目前 的 发 展 来 看 , 磁 存储 器 和 相 变 存储 器 的 发 展 更 迅速 ,三 星 公 司 已 推出 了 相 
变 内 存 产 品 芯 片 。 磁 存储 器 和 相 变 存储 器 的 特点 是 集成 度 高 和 非 易 失 性 , 即 不 需要 通过 
刷新 电流 来 维持 系统 状态 ,其 漏电 功 耗 很 低 ,是 构成 下 一 代 高 性 能 计算 机 存储 系统 的 很 有 
前 途 的 器 件 。 不 过 ,目前 这 些 新 内 存在 可 写 寿命 . 写 入 功 耗 、 写 入 速度 等 方面 还 与 目前 广 
泛 使 用 的 SRAM 有 着 比较 明显 的 差距 。 

另 一 项 对 高 性 能 计算 机 有 重大 影响 的 半导体 工艺 技术 是 集成 电路 的 三 维 封装 技 
术 。 该 技术 可 在 一 个 芯片 内 封装 更 多 的 处 理 器 核 ,或 直接 将 部 分 内 存 封装 在 处 理 器 内 
以 缓解 多 核 , 众 核 处 理 器 带 来 的 内 存 带 宽 瓶 颈 问 题 。 美 国宾 夕 法 尼 亚 州 州立 大 学 与 
HP 实验 室 合作 ,将 PCRAM 与 DRAM 封装 起 来 ,可 进行 快速 检查 点 (checkpoint) 设 置 ， 
同时 还 提出 了 一 种 利用 先进 半导体 工艺 来 解决 高 性 能 计算 机 面临 的 可 用 性 挑战 问题 
的 方法 。 


3. 定制 化 的 高 性 能 处 理 器 


根据 应 用 的 不 同 需求 ,定制 面向 一 类 问题 的 多 用 或 专用 处 理 器 ,能 够 设计 出 具有 更 高 
性 能 / 功 耗 比 的 处 理 器 。 但 是 ,高 性 能 计算 机 的 构建 并 不 只 是 研制 出 处 理 器 芯片 ,还 需要 
针对 处 理 器 开发 相应 的 系统 软件 和 工具 链 ( 包 括 编译 器 、 链 接 器 .调试 器 、 操 作 系统 等 ) 。 
采用 传统 技术 ,完成 定制 芯片 和 相应 的 系统 软件 和 工具 链 , 需 要 较 长 时 间 和 很 高 的 成 本 ， 
往往 还 不 如 半导体 技术 发 展 带 来 的 性 能 提高 更 有 效 ,因此 如 何 做 到 处 理 器 的 快速 定制 是 
这 条 研制 路 线 的 关键 。 

目前 ,Tensilica 公司 在 处 理 器 定制 技术 方面 具有 较 好 的 基础 。 其 采用 基于 Open64 
的 高 性 能 编译 器 ,可 让 用 户 方便 地 定制 所 需 的 全 套 软 件 工具 和 芯片 ,为 执行 特定 类 型 的 应 
用 提供 远 高 于 通用 CPU 的 性 能 。 目 前 ,已 实现 一 个 面向 网 络 处 理 的 188 个 核心 的 处 理 
器 ,并 用 于 Cisco 的 路 由 器 中 。Tensilica 公司 开发 出 了 新 一 代 处 理 器 定制 技术 ,可 全 自动 
地 完成 芯片 的 硬件 描述 语言 .系统 软件 以 及 全 套 工 具 链 的 生成 。 美 国 LBNL 已 决定 采用 
Tensilica 的 定制 技术 来 构建 其 EFLOPS 级 高 性 能 计算 机 。 


LE 


- — 

本 节 主 要 介绍 TOP500 超级 计算 机 系统 排名 。 超 级 计算 机 代表 了 一 个 国家 在 计算 
机 研发 和 应 用 方面 的 最 高 水 平 ,显示 一 个 国家 在 高 性 能 计算 方面 的 科研 实力 。 我 国 的 “天 
河 -1A? 夺 得 了 第 36 届 TOP500 排名 的 第 一 名 ,与 图 形 处 理 器 的 性 能 提升 不 无 关系 ,这 也 
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说 明 异 构 计 算是 未 来 超级 计算 机 的 重要 发 展 方向 。 同 时 ,Cluster 结构 的 系统 在 TOP500 
中 比例 较 高 ,而 MPP 结构 的 系统 在 TOP500 中 占有 数量 虽然 不 多 ,但 其 主打 的 是 高 端 
市 场 。 
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3.1 MPI 


并 行 编程 模型 发 展 迅 速 ,现存 有 各 种 并 行 编程 语言 ,本 节 将 对 目前 流行 的 MPI 编程 
模型 进行 详细 的 介绍 。 

基于 消息 传递 的 MPI, 是 目前 应 用 最 为 广泛 的 并 行 编程 模型 之 一 。 本 节 将 详细 讲解 
MPI 并 行 编程 的 特点 ,分 析 常 用 的 MPI 函数 和 编写 MPI 并 行程 序 的 方法 。 通 过 本 节 的 
学 习 , 读 者 对 并 行 编程 模型 会 有 一 定 的 了 解 ,并 能 掌握 基本 的 并 行 编程 方法 。 


3.1.1 MPI 简介 
1. 什么 是 MPI 


MPI 是 一 种 标准 或 规范 的 代表 ,而 不 是 特 指 某 一 个 对 它 的 具体 实现 。 所 有 正确 的 
MPI 程序 ,都 可 以 不 加 修改 地 运行 在 任意 一 台 并 行 机 上 。MPI 是 一 种 消息 传递 编程 模 
型 ,并 成 为 这 种 编程 模型 的 代表 和 事实 上 的 标准 , 它 服 务 于 进程 通信 。 

MPI 是 一 种 库 描述 ,而 不 是 一 种 语言 。 很 多 人 认为 MPI 是 一 种 专门 的 并 行 编程 语 
言 ,这 是 不 正确 的 。MPI 由 FORTRAN 十 MPI 或 C 十 MPI 组 成 ,共有 上 百 个 函数 调用 接 
HI ,在 Fortran 和 C 语言 中 可 以 直接 对 这 些 函 数 进行 调用 。 

由 于 MPI 并 行 代码 的 易 移植 性 ,应 用 程序 员 不 必 掌 握 更 多 的 全 新 概念 , 即 可 很 轻松 
地 编写 MPI 程序 。 


2. MPI 的 发 展 历程 


MPI 的 标准 化 工作 涉及 大 约 60 个 国家 的 人 们 ,他 们 主要 来 自 于 美国 和 欧洲 的 40 多 
个 组 织 , 这 包括 大 部 分 并 行 计算 机 的 主要 生产 商 ,还 有 来 自 大 学 、 政 府 实验 室 和 工厂 的 研 
究 者 们 。MPI 的 标准 化 工作 始 于 有 关 分 布 存储 环境 中 消息 传递 标准 的 讨论 会 ,该 会 议 是 
由 并 行 计 算 研 究 中 心 资助 ,于 1992 年 4 月 29 日 至 30 日 在 威廉 姆 斯 堡 召开 。 会 议 上 讨论 
了 标准 消息 传递 的 必要 的 、 基 本 的 特点 ,并 建立 了 工作 组 继续 进行 标准 化 工作 。 

由 Dongarra, Hempel, Hey 和 Walker 建议 的 初始 草案 MPI 于 1992 4E 11 月 推出 ， 
并 在 1993 年 2 月 完成 了 修订 版 。 在 威廉 姆 斯 堡 讨论 会 上 认定 的 消息 传递 标准 的 主要 特 
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点 都 包含 在 MPI-1 中 。 由 于 MPH 的 基本 目的 就 是 促进 讨论 并 继续 此 项 工作 ,所 以 其 内 
容 主要 集中 在 点 对 点 的 通信 。 

1992 年 11 月 ,MPI 工 作 组 在 明 尼 阿 波 利 斯 召开 会 议 , 对 MPI 标准 的 各 主要 组 成 部 
分 建立 相应 的 分 组 委员 会 ,并 设 定 了 目标 : 到 1993 年 秋 产 生 MPI 草案 。 为 达到 该 目标 ， 
MPI 工 作 组 在 1993 年 的 前 9 个 月 中 每 隔 6 个 星期 就 讨论 两 天 ,终于 在 1993 4E 11 月 召开 
的 超级 计算 会 议 上 提出 了 MPI 标准 的 草案 。 

1994 年 5 月 ,MPI 标准 正式 发 布 。 

1997 年 ,MPI-2 正式 发 布 。 


3. 为 什么 要 用 MPI 


为 什么 要 选择 MPI 呢 ? 是 因为 MPI 的 高 可 移植 性 和 易于 使 用 。 在 以 低级 消息 传递 
程序 为 基础 的 较 高 级 和 (或 ) 抽 象 程序 所 构成 的 分 布 存储 通信 环境 中 ,MPI 标准 化 所 带 来 
的 效益 非常 明显 。 而 且 , 消 息 传递 标准 的 定义 能 提供 给 生产 商 清晰 定义 的 函数 库 , 以 便 生 
产 商 能 有 效 地 实现 这 些 函 数 库 或 在 某 些 情况 下 为 库 函 数 提供 硬件 支持 ,因此 增强 了 MPI 
的 可 扩展 性 。 

迄今 为 止 ,MPI 已 在 IBM PC 上 、MS Windows 上 、 所 有 主要 的 UNIX/Linux 工作 
站 ,主流 的 并 行 机 上 得 到 实现 。 使 用 MPI 进行 消息 传递 的 C 或 Fortran 并 行程 序 不 用 改 
变 , 就 运行 在 IBM PC、MS Windows, UNIX/Linux 工作 站 以 及 各 种 并 行 机 上 。 


3.1.2 第 一 个 MPI 程序 
1. MPI 环境 的 配置 


1) 单机 上 MPI 环境 配置 

目前 ,市场 上 主流 的 个 人 计算 机 (PC) 都 是 双核 以 上 的 硬件 配置 ,下 面 将 以 双核 PC 为 
例 进 行 MPI 环境 的 配置 。MPI 在 并 行 执行 的 时 候 是 通过 ssh 来 实现 结 点 间 的 通信 ,所 以 
安装 MPI 时 还 需 对 ssh 服务 进行 必要 的 配置 。 以 下 是 安装 步骤 。 

(1) 配置 ssh 

CD 在 当前 用 户 下 ,执行 $ssh-keygen -d, 将 提示 密 钥 存放 的 目录 , 敲 回 车 确定 。 提 示 
输入 密码 ,为 了 运行 程序 时 方便 ,这 里 不 需要 输入 密码 ,直接 输入 两 次 回 车 确认 即 可 ,如 
图 3-1 所 示 。 


[testélocalhost -]$ ssh-keygen -d 

IGenerating public/private dsa key pair. 

Enter file in which to save the key (/home/test/.ssh/id dsa): 
Created directory '/home/test/.ssh'. 

Enter passphrase (empty for no passphrase): Bj 


图 3-1 在 当前 用 户 配置 sh 


© $cd —/.ssh. 
$ cp id dsa. pub authorized keys 


将 用 户 的 共有 密 钥 放 在 自己 的 认证 密 钥 里 ,这 样 在 $ ssh localhost 时 就 不 用 输入 密 
码 了 。 但 如 果 是 在 集群 环境 的 话 , 则 要 将 自己 的 共有 密 钥 存 放 在 要 访问 的 其 他 结 点 的 
authorized keys 中 ,如 图 3-2 所 示 。 


[testélocalhost -]$ cd -/.ssh 
[testelocalhost .ssh]$ cp id dsa.pub authorized key: 


图 3-2 认证 共有 密 匙 


© 修改 /etc/hosts 文件 ,从 localhost localhost. localdomain 下 面 一 行 开始 , 填 入 需要 
运行 MPI 的 所 有 结 点 名 及 其 ip 地 址 : 

(本 机 ip)  nodel 

(本 机 ip) node2 

(本 机 ip) node3 

(本 机 ip) node4 

如 图 3-3 所 示 。 


127.0.0.1 localhost localhost.localdomain Tocalhost4 localhost4.localdomaind 


localhost localhost.localdomain localhost6 localhost6.localdomain6 


图 3-3 修改 后 的 /etc/host 文件 


@ 修改 (或 创建 )/etc/hosts. equiv 文件 ,将 允许 访问 本 结 点 进行 mpi 计算 的 所 有 其 
他 结 点 填 信 ,一行 一 个 结 点 名 。 这 一 步 是 使 本 结 点 对 其 他 结 点 放权 ,文件 如 下 : 

nodel 

node2 


node3 
node4 


如 图 3-4 所 示 。 


nodel 
node2 
node3 


nodeag 


图 3-4 /etc/host. equiv 文件 
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© 测试 一 下 。 


$ ssh nodel 

$ ssh node2 

如 果 不 用 输入 密码 的 话 .就 说 明 ssh 配置 成 功 了 。 

(2) 安装 mpich 

下 载 mpich-1. 2. 7 下 载 地 址 为 http://www. mcs. anl. gov/research/projects/ 
mpich2/( 本 书 中 采用 的 是 mpich-1. 2. 7 版 本 ) 

$ cd mpich- 1.2.7pl 

./configure -- prefix = /usr/local/mpi - rsh- ssh —- disable — weak — symbols 

QE: 使 用 选项 - -disable-weak-symbols 的 目的 是 为 了 避免 MPICH 1.2.5 的 一 个 
bug ,否则 在 生成 的 库 中 将 没有 MPI File xxxx 等 函数 ,只 有 PMPI_File_xxx 等 函数 ) 如 
图 3-5 所 示 。 


[test@localhost Downloads]$ cd mpich-1.2.7p1/ 
[test@localhost mpich-1.2.7p1]$ ./configure --prefixs/usr/local/mpi -rsh=ssh -- 
isable-weak-synbolslj 


图 3-5 configure 配置 相关 文件 


make 

make install(ik: 这 步 需 要 root 权限 ) 

至 此 mpich 安装 完毕 。 

(3) 配置 环境 变量 

分 别 将 /usr/local/mpi/bin 和 /usr/local/mpi/man 加 入 环境 变量 PATH 和 
MANPATH 中 ,只 需 在 目录 /etc/profile. d 中 创建 mpich. sh 和 mpich. csh 这 两 个 文件 即 
可 ,它们 分 别 对 Bourne shell & C shell 起 作用 ,这 两 个 文件 的 内 容 如 下 : 

(D mpich. sh 文件 。 

& 1 /bin/bash 


export MANPATH = $ (MANPATH) : /usr/1ocal/mpi/man 
export PATH = $ (PATH) :/usr/1local/mpi/bin 


如 图 3-6 所 示 。 


[er/bin/bash 
lexport MANPATH-$(MANPATH) : /usr/local/mpi/man 
已 H n 


图 3-6 mpi. sh 文件 


a 
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© mpich. csh 文件 。 


# !/bin/csh 

if ( $ ?MANPATH == 0 ) then 

setenv MANPATH :/usr/local/mpi/man 

else 

setenv MANPATH $ (MANPATH) :/usr/local/mpi/man 
endif 

setenv PATH $ (PATH) :/usr/local/mpi/bin 


如 图 3-7 所 示 。 


T/bin/csh 
lf ( S?MANPATH == 0 ) then 
[setenv MANPATH :/usr/local/mpi/man 


se 
|setenv MANPATH S(MANPATH): /usr/local/mpi/man 
dif 


图 3-7 mpich. csh 文件 


© $ cd /etc。 

$. /profile 让 新 加 的 PATH 立即 生效 ,至 此 ,环境 变量 的 配置 完成 。 

2) 在 集群 上 MPI 环境 配置 

在 集群 上 对 MPI 环境 进行 配置 的 步骤 与 在 单机 上 大 致 相同 。 在 集群 环境 中 ,由 于 物 
理 结 点 不 止 一 个 ,所 以 在 修改 /etc/host 文件 时 ,应 填 人 相应 node 及 其 ip 值 。 


2. 开发 第 一 个 MPI 程序 


下 面 ,以 一 个 简单 的 实例 “Hello World” 为 例 ,给 出 MPI 程序 的 一 个 简单 框架 ,使 读 
者 对 MPI 并 行程 序 有 一 个 基本 的 认识 。 

C 语言 的 程序 设计 者 对 * Hello World” 这 一 例子 一 定 还 记忆 犹 新 ,几乎 每 本 程序 设计 
书 都 是 从 这 个 简单 的 例子 程序 开始 的 。 它 虽然 简单 ,但 具有 一 定 的 代表 性 。 因 此 ,本 书 也 
从 “Hello World” 开 始 对 MPI 编程 进行 介绍 ,其 代码 如 下 所 示 : 


# include "mpi. h" /* 包含 mpi 头 文件 */ 
#include< stdio. h> 
# include < math. h> 
void main(int argc,char * argv[]) 
{ 
int myid, numprocs; 
int namelen; 
char processor name[MPI MAX PROCESSOR NAME]; 
MPI Init(&argc, &argv) ; /* 初始 化 mpi, 并 行程 序 开始 执行 * / 
/* 获得 当前 进程 的 标识 号 * / 


a 


$ 
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MPI Comm rank(MPI COMM WORLD, &myid); 

MPI Comm size(MPI COMM WORLD,&numprocs); /* 获得 总 进程 数 * / 

MPI Get processor name(processor name, &namelen); 

/* 返回 当前 进程 所 在 的 机 器 名 * / 

printf("Hello World! Process %d of &d on $sWn",myid, numprocs, processor name); 
MPI Finalize(); /x* 结束 mpi */ 

} 

对 这 第 一 个 C 十 MPI 并 行程 序 ,分 为 如 下 四 部 分 进行 讲解 : 

(D 需要 MPI 相对 于 C 实现 的 头 文件 mpi. h。 

@ 定义 程序 中 所 需要 的 与 MPI 有 关 的 变量 。MPI_MAX_PROCESSOR_NAME 是 
MPI 预定 义 的 宏 , 即 在 某 一 MPI 的 具体 实现 中 允许 机 器 名 字 的 最 大 长 度 。 机 器 名 放 在 变 
hit processor name 中 。 整 型 变量 myid 和 numprocs 分 别 用 来 记录 并 行 执行 的 当前 进程 
的 标识 和 所 有 参加 计算 的 进程 的 个 数 。namelen 是 实际 得 到 的 机 器 名 字 的 长 度 。 

@ 在 MPI 程序 的 开始 和 结束 处 ,必须 分 别 调用 MPI Init 与 MPI_Finalize 函数 ,各 
自 完成 MPI 程序 的 初始 化 和 结束 工作 。 

@ MPI 程序 的 程序 体 , 包 括 各 种 MPI 过 程 调 用 语句 和 C 语句 。MPI_Comm_rank 
得 到 当前 正在 运行 的 进程 的 标识 号 , 放 在 myid 中 ; MPI_Comm_size 得 到 所 有 参加 运算 
的 进程 的 个 数 , 放 在 numprocs 中 ; MPI_Get_processor_name 得 到 当前 进程 所 在 机 器 的 
名 称 ,结果 放 在 processor name 中 , 它 是 一 个 字符 串 ,而 该 字符 串 的 长 度 放 在 namelen 
中 ,fprintf 语句 将 当前 进程 的 标识 号 ,并行 执 行 的 进程 的 个 数 .当前 进程 所 在 机 器 的 名 字 
打印 出 来 。 

与 普通 C 程序 不 同 的 是 ,在 这 些 程序 体 中 的 执行 语句 是 并 行 执行 的 ,每 一 个 进程 都 
要 执行 。 不 妨 指定 本 程序 启动 时 共产 生 了 4 个 进程 同时 运行 ,而 运行 本 程序 的 机 器 的 名 
称 为 localhost, 这 4 个 进程 都 在 localhost 上 运行 ,其 标识 分 别 为 0、1、2、3, 执 行 结 果 如 
图 3-8 所 示 。 虽 然 ,该 MPI 程序 本 身 只 有 一 条 打印 语句 ,但 是 由 于 它 启动 了 4 个 进程 同 
时 执行 ,每 个 进程 都 要 执行 这 条 打印 操作 ,所 以 最 终 的 执行 结果 有 4 条 打印 语句 。 

lelto World! Process 8 of 4 on localhost 
Hello World! Process 3 of 4 on localhost 


Hello World! Process 2 of 4 on localhost 
Hello World! Process 1 of 4 on localhost 


图 3-8 Hello World 程序 在 单机 上 的 运行 结果 


运行 此 程序 : 

在 当前 文件 夹 中 ,建立 一 个 test. c 文 件 ,并 编写 上 述 代码 。 
编译 此 文件 $ mpicc -o test test. c. 

运行 目标 文件 $ mpirun -np 4 test; 

-np 4 表示 生成 4 个 进程 并 行 执行 此 程序 ,执行 结果 如 图 3-8 Bron 。 
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该 程序 的 并 行 执行 过 程 如 图 3-9。 即 4 个 进程 所 运行 的 机 器 是 相同 的 。 由 于 4 个 进 
程 同 时 执行 ,在 本 程序 中 没有 限定 打印 语句 的 顺序 ,因此 无 论 哪个 进程 的 打印 语句 在 前 ， 


哪个 在 后 ,都 是 可 能 的 ,只 要 有 4 条 正确 的 输出 语句 即 可 。 


hello world 程 序 开始 执行 


MPI Comm rank 
myid-0 


MPI Init 


MPI Comm rank 
myid-3 


MPI Get processor name| |MPI Get processor name 
processor name-localhost | |processor name-localhost 


MPI Get processor name 
processor name-localhost 


MPI Get processor name 
processor name-localhost 


Print Print 
ello World! Process 0 of 4 on|Hello World! Process 1 of 4 on 


Print 
lello World! Process 2 of 4 oi 


Print 
Hello World! Process 3 of 4 on| 


localhost localhost localhost. localhost 
Y | | | 
MPI Finalize MPI Finalize MPI_Finalize MPI Finalize 


| | 


hello world 程 


图 3-9 Hello World 程序 的 运行 过 程 
3. MPI 几 个 简单 函数 


1) MPI 参 数 说 明 
MPI 常用 参数 如 下 : 


$ 


a 


4» 
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缓冲 区 (buffer) 指 由 应 用 程序 定义 的 用 于 发 送 或 接收 数据 的 缓冲 区 。 
数据 个 数 (count) ” 指 发 送 或 接收 指定 数据 类 型 的 数据 个 数 。 

数据 类 型 (type) MPI 定 义 了 一 些 默 认 的 数据 类 型 ,用户 也 可 以 根据 需要 创建 自 
己 的 数据 类 型 。 其 中 ,MPL_ BYTE 和 MPI PACKED 5 C 语言 的 类 型 不 对 应 。 
目的 地 (dest) ”发 送 进程 指定 地 接收 该 消息 的 目的 进程 ,也 就 是 接收 进程 的 标识 号 。 
源 (source) ”接收 进程 指定 地 发 送 该 消息 的 源 进 程 ,也 就 是 发 送 进 程 的 标识 号 。 
如 果 该 值 为 MPI_ANY_SOURCE 表示 接收 任意 源 进 程 发 来 的 消息 。 
标识 符 (tag) ”为 了 标识 一 个 消息 ,由 程序 员 指 定 的 唯一 非 负 整 数值 (0 一 32 767)。 
发 送 操作 和 接收 操作 的 标识 符 一 定 要 匹配 ,但 对 于 接收 操作 来 说 ,如 果 tag 指定 
为 MPL ANY TAG 则 可 与 任何 发 送 操作 的 tag 相 匹 配 。 

通信 因子 (comm) 包含 源 进程 与 目的 进程 的 一 组 上 下 文 相 关 的 进程 集合 ,除非 
用 户 自己 定义 (创建 ) 了 新 的 通信 因子 ,否则 均 使 用 系统 预先 定义 的 全 局 通信 因子 
MPI COMM_WORLD。 

状态 (status) 对 于 接收 操作 ,包含 了 接收 消息 的 源 进程 (source) 和 消息 的 标识 
符 (tag)。 在 C 程序 中 ,这 个 参数 是 指向 MPI Status 结构 的 指针 (如 status. MPI_ 
SOURCE status. MPIL_ TAG) 。 而 在 Fortran 程序 中 ,这 个 参数 是 大 小 为 MPI_ 
STATUS SIZE 的 整 型 数组 (如 status(MPI_SOURCE) status (MPI_TAG))。 
另外 ,实际 接收 到 的 消息 长 度 可 以 通过 MPI Get_count() 函数 从 该 参数 中 得 到 。 
请 求 (request) ”这 个 参数 用 于 非 阻 塞 发 送 和 非 阻 塞 接收 操作 。 由 于 非 阻 塞 操作 
返回 后 ,实际 上 消息 并 未 真正 完成 发 送 或 接收 。 因 此 ,用 户 可 以 根据 该 变量 调用 
其 他 函数 完成 消息 的 实际 发 送 和 接收 。 在 C 程序 中 ,这 个 参数 是 指向 MPI_ 
Request 结构 的 指针 。 

MPI 对 参数 说 明 的 方式 有 三 种 ,分 别 是 IN.OUT 和 INOUT, 它 们 的 含义 分 别 是 : 
INGARA) 函数 调用 传递 给 MPI 的 参数 , MPI 除了 使 用 该 参数 外 不 允许 对 这 一 
参数 做 任何 修改 。 

OUT( 输 出 ) MPI 返回 给 函数 调用 的 结果 参数 ,该 参数 的 初始 值 对 MPI 没有 任 
何 意 义 。 

INOUT( 输 入 输出 ) ”函数 调用 首先 将 该 参数 传递 给 MPI, MPI 对 这 一 参数 进行 引 
用 ,修改 之 后 再 将 结果 返回 给 外 部 函数 调用 ,该 参数 的 初始 值 和 返回 结果 都 有 意义 。 
2) 常用 函数 

(D MPI Init( ) 

MPI InitC ) 是 初始 化 MPI 运行 环境 的 函数 。 每 个 MPI 程序 必须 调用 该 函数 ,并 且 


它 必须 在 所 有 调用 MPI 函数 之 前 被 调用 ,而 且 只 能 被 调用 一 次 。 对 于 C 程序 , MPI_Init 
必须 传递 所 有 的 命令 行 参数 。 
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子 MPI COMM 


MPI Init (*argc, **argv) 
© MPI Comm size 
前 通信 域 中 一 共有 多 少 个 进程 在 并 行 执行 。 通 常 ,可 以 根据 通信 


该 函数 返回 在 当前 通信 域 中 所 包含 的 进程 数 ,不 同 的 进程 通过 这 一 调用 可 以 得 到 当 
WORLD 来 查询 用 户 程 序 包含 的 进程 数 。 


MPI Comm size (comm, * size) 


(3 MPI Comm rank 
该 函数 返回 当前 进程 在 指定 通信 域 中 的 进程 标识 号 ,不 同 的 进程 可 以 依据 进程 号 将 


自身 和 其 他 进程 区 别 开 来 ,从 而 实现 各 进程 的 并 行 执行 和 协作 。 一 个 进程 在 不 同 通信 域 


中 的 进程 标识 号 可 能 不 同 。 
其 他 函数 (包括 MPL Init)。 用 户 必须 保证 在 进程 调用 MPI_Finalize 之 前 结束 与 进程 有 


MPI Comm rank (comm, * rank) 
该 函数 结束 MPI 执行 环境 。 该 函数 一 旦 被 应 用 程序 所 调用 ,就 不 能 再 调用 MPI 的 


G) MPI Abort 
管 该 进程 是 否 与 该 通信 域 相关 。 
该 函数 返回 当前 进程 所 在 处 理 器 的 名 称 ,name 缓冲 区 的 大 小 必须 大 于 MPI_MAX_ 


(à) MPI Finalize 
关 的 所 有 通信 结束 。 
MPI_Finalize () 
© MPI Send 
该 函数 是 最 基本 的 阻塞 发 送 函 数 。 当 函数 返回 时 ,应 用 程序 的 发 送 缓冲 区 空闲 ,可 以 
继续 使 用 。 
MPI Send ( * buf, count, datatype, dest, tag, comm) 
MPI Recv 
该 函数 是 最 基本 的 阻塞 接收 函数 ,直到 接收 的 消息 到 达 本 进程 的 接收 缓冲 区 之 后 该 
函数 调用 才 返 回 。 
MPI_Recv ( * buf, count, datatype, source, tag, comm, * status) 
结束 所 有 与 该 通信 域 相关 的 进程 。 一 般 来 说 ,调用 该 函数 后 ,所 有 的 进程 都 退出 ,不 


MPI_Abort (comm, errorcode) 
(8 MPI_Get_processor_name 
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PROCESSOR_NAME, 真 正 的 长 度 返回 在 resultlength 变量 中 。 


MPI Get processor name ( * name, * resultlength) 


(9 MPI Wtime 


该 函数 返回 调用 进程 已 执行 的 时 间 ( 以 秒 为 单位 , 双 精 度 ) 。 


MPI Wtime () 


(0 MPI Wtick 


该 函数 按 秒 返 回 MPI Wtime 的 分 辩 率 ,也 就 是 返回 一 个 双 精 度 值 (连续 时 间 之 间 的 
秒 数 ) 。 例 如 ,如 果 时 钟 由 作为 按 毫 秒 递 增 的 计数 器 来 实现 时 , 则 MPI_Wtick 返回 的 值 


i 107, 
3.1.3. 点 对 点 通信 


在 MPI 系 统 中 ,完成 一 次 消息 传递 至 少 需要 两 个 以 上 的 进程 , 且 至 少 有 一 个 消息 发 
送 进程 和 至 少 一 个 消息 接收 进程 。 点 对 点 通信 就 是 MPI 程序 中 任意 两 个 进程 之 间 的 一 
次 消息 传递 。 其 中 一 个 进程 负责 发 送 消息 , 另 一 个 进程 负责 接收 消息 。 称 发 送 消息 的 进 
程 为 发 送 进程 ,接收 消息 的 进程 为 接收 进程 ,并 且 在 一 次 点 对 点 通信 中 发 送 进程 和 接收 进 


程 必须 是 相互 匹配 的 。 
1. 点 对 点 通信 的 分 类 


点 对 点 通信 根据 消息 发 送 和 接收 方式 的 不 同 可 以 分 为 阻塞 通信 和 非 阻 塞 通信 两 大 
类 。 其 中 阻塞 通信 和 非 阻 塞 通信 又 分 别 分 为 标准 模式 、 缓 存 模式 、 就 绪 模式 和 同步 模式 。 


具体 分 类 如 表 3-1 所 示 。 


表 3-1 点 对 点 通信 模型 分 类 


标准 通信 模式 


MPI Send 


— 缓存 通信 模式 MPI Bsend s i 
就 结 通 信 模 式 MPI_Rsend L | 
同步 通信 模式 MPI_Ssend MPI_Recv_Init 
3k 标准 通信 模式 MPI ISend 
* 缓冲 通信 模式 MPI IBsend 
就 绪 通信 模式 MPI IRsend 
非 阻塞 | E 同步 通信 模式 MPI ISsend MERRE? 
通信 标准 通信 模式 MPI Isend_Init MERE 
* 缓冲 通信 模式 MPI Ibsend Init MPI Recs Init 
复 就 绪 通 信 模 式 MPI Irsend Init 
同步 通信 模式 MPI Issend Init 
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2. 阻塞 通信 


阻塞 通信 是 有 序 的 , 即 接收 进程 要 按照 发 送 进程 的 发 送 顺序 来 接收 ,即使 后 发 送 的 消 
息 先 到 达 。 此 外 ,在 阻塞 通信 模型 中 , 当 一 个 通信 操 


作 正确 返回 时 , 则 该 通信 操作 已 正确 完成 (消息 成 功 MEA Bist 
发 送 或 接收 ), 该 操作 所 占用 的 缓冲 区 可 被 其 他 操作 0n Ew 
继续 使 用 。 阻 塞 通信 模型 的 工作 流程 图 如 图 3-10 CHRE 启动 接收 


所 示 。 

阻塞 通信 需要 消息 发 送 进程 的 发 送 操作 与 接收 E 
进程 的 接收 操作 相互 配合 来 完成 。 在 调用 发 送 函 数 
返回 之 前 ,需要 将 要 发 送 的 消息 安全 地 托管 , 即 下 次 “得 帮 级 m 区 [umana] 
发 送 丽 数 的 调用 不 会 影响 上 次 发 送 的 数据 。 按 照发 M30 阻塞 通信 模型 的 流程 图 
送 的 消息 被 托管 方式 的 不 同 ,阻塞 通信 又 可 被 分 为 
四 种 模式 ,在 不 同 模式 下 要 求 MPI 环境 本 身 提供 的 缓存 机 制 各 有 不 同 。 这 四 种 通信 模式 
的 分 类 如 表 3-2 所 示 。 


表 3-2 阻塞 通信 的 四 种 通信 模式 


通信 模式 函数 原型 

标准 通信 模式 MPI Send ( * buf. count, datatype, dest. tag» comm) 

缓存 通信 模式 MPI Bsend ( * buf, count, datatype, dest, tag, comm) 

就 绪 通 信 模 式 MPI Rsend ( * buf, count, datatype, dest, tag, comm) 

同步 通信 模式 MPI Ssend ( * buf, count, datatype, dest, tag» comm) 
1) 标准 通信 模式 


标准 通信 模式 是 最 基本 的 阻塞 通信 模式 。 当 此 模式 中 , 当 发 送 函 数 返回 时 ,表明 应 用 
程序 的 发 送 缓冲 区 空闲 ,可 以 被 下 次 发 送 函 数 继续 使 用 。 其 函数 的 原型 如 下 : 


MPI Send(void * buf, int count, MPI Datatype datatype, int dest, int tag, MPI Comm comm) 


IN buf 发 送 缓冲 区 的 起 始 地 址 
IN count 发 送 数据 的 个 数 

IN datatype 发 送 数据 的 数据 类 型 
IN dest 目的 进程 的 标识 号 

IN tag 消息 标签 

IN comm 通信 域 


在 这 种 模式 中 ,由 MPI 决 定 是 否 需要 缓存 正 要 发 出 的 消息 。 当 MPI 决 定 并 缓存 这 
些 消息 时 , 则 发 送 函 数 可 以 直接 返回 而 无 须 等 待 对 应 接收 进程 启动 接收 操作 。 若 MPI E 
存 空间 不 足 或 因为 其 他 原因 ,MPI 选择 不 缓存 正 要 发 出 的 消息 。 这 时 ,发 送 操作 必须 等 
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待 相应 的 接收 操作 启动 并 且 数 据 被 接收 者 接收 后 才 可 以 返回 。 所 以 ,标准 模式 发 送 操作 
是 否 开始 并 不 依赖 于 匹配 的 接收 操作 是 否 启动 , 它 可 以 早 于 匹配 接收 启动 进行 。 但 标准 
模式 的 发 送 又 是 全 局 的 操作 ,发 送 操作 的 完成 依赖 于 匹配 接收 操作 的 状态 。 
缓存 可 以 提高 一 个 正确 程序 的 性 能 ,但 它 不 影响 程序 运行 的 结果 。 在 阻塞 标准 通信 
模式 中 ,MPI 没有 规定 发 送 进程 要 发 送 的 消息 是 否 被 缓存 ,这 使 得 程序 不 依赖 于 系统 组 
存 ,从 而 提高 了 程序 的 可 移植 性 。 
阻塞 标准 通信 模式 的 工作 流程 如 图 3-11 所 示 。 
2) 缓存 通信 模式 
Roma Buts 与 标准 通信 模式 不 同 的 是 ,在 缓存 通信 模式 
1 中 ,用 户 可 以 直接 对 通信 缓冲 区 进行 申请 .使 用 和 
| 释放 ,对 缓冲 区 的 设计 利用 完全 由 程序 员 决 定 。 
在 缓存 通信 模式 中 无 论 匹 配 进 程 的 接收 操作 是 否 
! EZ 启动 ,发 送 操作 都 可 以 执行 之 后 就 返回 。 但 是 ,在 
moj — ene 发 送 消息 之 前 必须 保证 有 缓冲 区 可 用 ,否则 该 发 
图 3-11 阻塞 标准 通信 模式 的 流程 图 。” 送 将 直接 错误 返回 。 
在 缓存 通信 模式 中 ,消息 发 送 能 否 进 行 以 及 
能 否 正确 返回 并 不 依赖 于 接收 进程 ,而 是 完全 依赖 于 是 否 有 足够 的 通信 缓冲 区 可 用 。 当 
有 足够 的 缓冲 区 时 ,发送 消 息 被 缓存 之 后 ,发 送 操作 即 可 成 功 返 回 。 但 若 没有 足够 的 缓冲 
区 , 则 发 送 操作 直接 错误 返回 。 缓 存 发 送 返回 后 ,并 不 意味 着 该 缓冲 区 可 以 自由 使 用 ,只 
有 当 缓 冲 区 中 的 消息 被 发 送出 去 之 后 , 才 可 以 释放 该 缓冲 区 。 其 函数 的 原型 如 下 ， 


MPI Bsend (void * buf, int count, MPI Datatype datatype, int dest, int tag, MPI Comm comm) 
(具体 的 参数 含义 见 标准 通信 模式 ) 
在 进行 通信 时 ,用户 需要 根据 需求 向 系统 申请 一 定 大 小 的 缓冲 区 ,申请 成 功 之 后 就 可 
以 利用 这 些 缓冲 区 对 发 送 的 消息 进行 缓存 。 在 让 消息 接收 完毕 之 后 ,就 可 以 释放 这 些 组 
冲 区 。 申 请 和 释放 缓冲 区 的 函数 如 表 3-3 所 示 。 
表 3-3 ”申请 和 释放 缓冲 区 函数 
申请 函数 MPI Buffer attach ( * buffer, size) 


释放 函数 MPI Buffer detach ( * buffer, size) 


其 中 buffer 是 缓冲 区 的 初始 地 址 ,size 是 以 字 节 为 单位 的 缓冲 区 大 小 。MPI Buffer | 
attach 将 大 小 为 size 的 缓冲 区 交 给 MPI, 用 户 可 以 用 其 来 缓冲 将 要 发 送 的 消息 。MPI_ 
Buffer detach 将 大 小 为 size 的 缓冲 区 收回 。 该 操作 是 阻塞 调用 , 它 一 直 等 到 使 用 该 缓冲 
区 的 消息 发 送 完 成 之 后 才 返 回 。MPI_ Buffer detach 释放 的 缓冲 区 buffer 可 以 被 用 户 重 
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新 使 用 。 

阻塞 缓存 通信 模式 的 工作 流程 如 图 3-12 所 示 。 

3) 就 绪 通 信 模 式 

与 标准 通信 模式 不 同 的 是 ,在 就 绪 通 信 模 式 中 ,只 有 在 匹配 进程 的 接收 操作 启动 之 
后 ,发 送 进程 的 发 送 操作 才能 启动 ,否则 将 会 出 现 发 送出 错 。 其 函数 的 原型 如 下 : 


MPI Rsend(void * buf, int count, MPI Datatype datatype, int dest, int tag, MPI Comm comm) 


(具体 的 参数 含义 见 标准 通信 模型 ) 
阻塞 就 绪 通信 模式 的 工作 流程 如 图 3-13 所 示 。 


发 送 进程 
1 L———— 
pm 发 送 进程 接收 进程 
开始 接收 
完成 发 送 完成 接收 


图 3-12 阻塞 缓存 通信 模式 的 流程 图 图 3-13 阻塞 就 绪 通信 模式 的 流程 图 


4) 同步 通信 模式 

与 标准 通信 模式 不 同 的 是 ,在 同步 通信 模式 中 ,发 送 操作 只 要 等 到 相应 的 接收 进程 开 
始 之 后 就 可 以 正确 地 返回 ,而 此 时 发 送 缓冲 区 的 内 容 也 全 部 被 系统 缓冲 区 缓存 。 所 以 , 当 
发 送 正确 返回 时 ,发 送 缓冲 区 可 以 被 重新 使 用 。 其 函数 的 原型 如 下 。 


MPI Ssend (void * buf, int count, MPI Datatype datatype, int dest, int tag, MPI Comm comm) 


(具体 的 参数 含义 详 见 标准 通信 模型 ) 

阻塞 同步 通信 模式 的 工作 流程 如 图 3-14 所 示 。 

5) 程序 示例 [发送 进程 接收 进程 

下 面 , 举 一 个 简单 的 程序 实例 ,对 以 上 四 种 阻 
塞 通信 模式 进行 简单 的 使 用 。 此 程序 启动 8 个 进 EUST 1 
程 。 其 中 ,进程 0 以 标准 模式 向 进程 4 发 送 整 型 开始 接收 
消息 0 ,进程 1 以 缓存 模式 向 进程 5 发 送 整 型 消息 
1 ,进程 2 以 就 绪 模式 向 进程 6 发 送 整 型 消息 2, 进 
程 3 以 同步 模式 向 进程 7 发 送 整 型 消息 3。 具 体 
的 代码 如 下 。 图 3-14 阻塞 同步 通信 模式 的 流程 图 


Y i 
ETT. 完成 接收 


a 


405 
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int rank, bsize, * buf,recv; 
int nums[4] - (0,1,2,3); 


MPI Init(&argc, &argv) ; /* 初始 化 mpi, 并 行程 序 开始 执行 * / 

MPI Comm rank(comm, &rank); /* 获得 当前 进程 的 标识 号 * / 

if(rank == 0) /* 以 标准 模式 向 4 号 进程 发 送 数 据 * / 
MPI Send(&nums[rank],1,MPI INT,4,0,conm); 

else if(rank-- 1) /* 以 缓存 模式 向 5 号 进程 发 送 数据 * / 


{ 
/* 用 PACK_SIZE 来 计算 包装 一 个 消息 所 需 缓 冲 区 的 大 小 的 上 界 , 以 字 节 为 单位 * / 
MPI Pack size(1,MPI INT,comm, &bsize); 
/ * MPI BSEND OBERHEAD 定义 使 用 缓冲 区 方式 所 需 额 外 开销 的 上 界 / 
bsize += 2 * MPI BSEND OVERHEAD; 
buf = (int * )malloc(bsize); 
/* 装配 一 个 用 于 通信 的 缓冲 区 * / 
MPI_ Buffer attach(buf,bsize+ MPI BSEND OVERHEAD); 
MPI Bsend(&nums[rank],1,MPI INT,5,0,comm); 
/* HEJHUTGBISRUAENIX * / 
MPI Buffer detach(&buf,&bsize); 


free(buf); 

} 

else if (rank == 2) /* 以 就 绪 模 式 向 6 号 进程 发 送 数据 * / 
MPI Rsend(&nums[rank],1,MPI INT,6,0,comm); 

else if(rank-- 3) /* 以 同步 模式 向 7 号 进程 发 送 数据 * / 
MPI Ssend(&nums[rank],1,MPI INT,7,0,comm); 

else if(rank-- 4) /* 接收 0 号 进程 发 来 的 数据 * / 


{ 
MPI Recv(&recv,1,MPI INT,0,0,comm, &status); 
printf("Process % d Recv Mes from process %d: % d\n", rank, status. MPI_SOURCE, recv); 
} 
else if(rank-- 5) /* 接收 1 号 进程 发 来 的 数据 * / 
t 
MPI Recv(&recv,1,MPI INT, 1,0, comm, &status) ; 
printf("Process % d Recv Mes from process d: % d\n", rank, status. MPI_SOURCE, recv); 
) 
else if(rank == 6) /* 接收 2 号 进程 发 来 的 数据 * / 
{ 
MPI_Recv(&recv, 1, MPI_INT, 2,0, comm, &status) ; 
printf("Process %d Recv Mes from process *d: %d\n",rank,status.MPI SOURCE, recv); 
i 
else if(rank-- 7) /* 接收 3 号 进程 发 来 的 数据 * / 
{ 
MPI Recv(&recv,1,MPI INT,3,0,comm, &status); 
printf("Process % d Recv Mes from process *&d: % d\n", rank, status. MPI_SOURCE, recv); 
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程序 运行 结果 如 下 所 示 : 


Process 4 Recv Mes from process 0: 0 
Process 6 Recv Mes from process 2:2 
Process 5 Recv Mes from process 1: 1 
Process 7 Recv Mes from process 3: 3 


3. 非 阻塞 通信 


在 阻塞 发 送 模型 中 ,操作 完成 之 前 处 理 器 只 能 等 待 ,这 样 浪费 了 处 理 机 的 大 量 资源 。 
为 了 解决 这 个 问题 ,可 以 采用 计算 和 通信 重 琶 的 技术 , 非 阻塞 通信 模型 可 实现 该 目的 。 

在 非 阻 塞 通信 模型 中 ,通信 操作 不 必 等 待 实际 完成 便 可 直接 返回 。 它 只 对 这 一 通信 
操作 进行 了 初始 化 ,然后 便 将 该 操作 交 给 特定 的 硬件 去 完成 。 与 此 同时 ,处 理 器 可 以 进行 
其 他 计算 操作 ,从 而 实现 了 计算 和 通信 的 重 倒 。 这 样 的 并 行 设计 思路 大 大 提高 了 程序 的 
执行 效率 。 

阻塞 通信 模型 发 送 操作 的 返回 意味 着 发 送 操作 的 完成 , 即 发 送 缓冲 区 可 以 被 重新 使 
用 。 而 非 阻 塞 通信 模型 则 与 之 不 同 ,在 该 模型 中 ,发送 操作 的 完成 需要 特定 的 方法 ,需要 
检测 消息 是 否 发 送 完成 。 接 收 操作 亦 如 此 , 非 阻 塞 接收 的 返回 并 不 意味 着 接收 的 消息 已 经 
全 部 到 达 , 同 样 ,也 需要 特定 的 方法 进行 检测 。 非 阻塞 通信 模型 的 工作 流程 如 图 3-15 所 示 。 


非 阻塞 发 送 非 阻塞 接收 


立即 返回 


计算 与 通 | ; 
信 重 又 


i 
算 


完成 通信 


图 3-15 非 阻塞 通信 模型 的 流程 图 


D 非 阻 塞 通信 模型 的 分 类 
相对 于 阻塞 通信 和 包含 的 四 种 通信 模式 , 非 阻塞 通信 也 可 分 为 相应 的 四 种 通信 模式 , 具 


F 
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体 分 类 情况 如 表 3-4 所 示 。 
表 3-4 非 阻塞 通信 模型 的 分 类 


通信 模式 RO 原 型 
标准 通信 模式 MPI Isend ( * buf, count, datatype, dest, tag, comm) 
缓冲 通信 模式 MPI Ibsend ( * buf, count, datatype, dest, tag», comm) 
就 绪 通 信 模 式 MPI Irsend ( * buf, count, datatype, dest, tag, comm) 
同步 通信 模式 MPI Issend ( * buf, count, datatype, dest, tag, comm) 


下 面 仅 对 标准 通信 模式 进行 详细 介绍 , 非 阻塞 通信 模型 中 其 他 模式 与 标准 模式 的 区 
别 与 阻塞 通信 模型 中 各 模式 的 区 别 相似 ,在 此 不 再 进行 详细 介绍 。 

2) 常用 的 非 阻塞 操 作 

由 于 非 阻塞 通信 与 阻塞 通信 不 同 , 非 阻塞 通信 操作 调用 之 后 立即 返回 。 所 以 , 非 阻塞 
操作 除了 基本 的 发 送 和 接收 操作 之 外 ,还 需要 其 他 操作 (如 状态 检测 、 消 息 探测 等 ) 来 配合 
非 阻塞 通信 操作 的 完成 。 在 非 阻塞 通信 模型 的 标准 通信 模式 中 ,常用 的 函数 如 表 3-5 


DIE 
表 3-5 常用 的 标准 非 阻塞 通信 操作 
操作 名 函 名 

发 送 操作 MPI Isend( * buf. count. datatype, dest. tag. comm) 
接收 操作 MPI Irecv( * buf, count, datatype, source. tag, comm, * request) 
等 待 完成 操作 MPI Wait( * request, * status) 
检测 完成 操作 MPI Test( * request. * flag. * status) 
取消 操作 MPI Cancel( * request) 
检测 取消 完成 操作 MPI Test cancelled( * status, * flag) 
通信 探测 操作 (阻塞 式 ) MPI Probe(source. tag. comm. * status) 
通信 探测 操作 ( 非 阻 塞 式 ) MPI Iprobe(source, tag, comm, * flag, * status) 
通信 对 象 释放 操作 MPI Request. free( * request) 

(1) 发 送 函 数 

函数 原型 如 下 : 


int MPI Isend(void * buf, int count, MPI Datatype datatype, int dest, int tag, MPI Comm 
comm, MPI Request * request) 


IN buf 发 送 缓冲 区 的 起 始 地 址 
IN count 发 送 数据 的 个 数 

IN datatype 发 送 数据 的 数据 类 型 
IN dest 目的 进程 的 标识 号 


IN tag 消息 标签 
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IN comm 通信 域 
OUT request 非 阻 塞 通 信 对 象 
发 送 操作 被 调用 之 后 立即 返回 ,但 它 只 是 对 发 送 操作 进行 了 初始 化 ,并 不 代表 消息 发 
送 的 完成 。 与 标准 阻塞 发 送 函 数 相 比 ,该 函数 多 了 一 个 request 参数 。 它 是 一 个 用 来 描 
述 该 非 阻塞 通信 状态 的 对 象 ,通过 对 request 相对 应 的 通信 状态 进行 查询 ,可 以 判定 本 次 
非 阻 塞 发 送 操作 是 否 完成 。 
(2) 接收 函数 
函数 原型 如 下 : 


int MPI Irecv(void * buf, int count, MPI Datatype datatype, int source, int tag, MPI Comm 
comm, MPI Request * request) 


OUT buf 接收 缓冲 区 的 起 始 地 址 
IN count 接收 数据 的 个 数 

IN datatype 接收 数据 的 数据 类 型 
IN source 源 进 程 的 标识 号 

IN tag 消息 标签 

IN comm 通信 域 

OUT request 非 阻塞 通信 对 象 


接收 操作 被 调用 之 后 立即 返回 ,但 并 不 意味 着 全 部 的 消息 已 接收 完成 。 函 数 中 的 
request 参数 是 一 个 用 来 描述 本 次 通信 状态 的 对 象 , 通 过 对 request 相对 应 的 通信 状态 进 
行 查询 ,可 以 得 知 本 次 非 阻塞 接收 操作 是 否 完成 。 

(3) 等 待 完成 操作 


函数 原型 如 下 : 

int MPI Wait(MPI Request * request, MPI Status * status) 
INOUT request 非 阻塞 通信 对 象 
OUT status 通信 状态 


MPI Wait 操作 要 一 直 等 到 与 该 非 阻塞 通信 对 象 相 对 应 的 本 次 非 阻塞 通信 操作 (如 
发 送 操作 .接收 操作 ) 完 成 之 后 才 返 回 , 同 时 释放 该 阻塞 通信 对 象 。 函 数 中 的 Status 参数 
存储 了 非 阻塞 通信 的 完成 状态 。 

(4) 检测 完成 操作 


函数 原型 如 下 : 

int MPI Test(MPI Request * request, int * flag, MPI Status * status) 
INOUT request 非 阻塞 通信 对 象 
OUT flag 操作 是 否 完成 标志 
OUT status 通信 状态 


MPI Test 操作 也 是 以 request 为 参数 。 但 与 MPL_ Wait 不 同 的 是 , 它 不 必 等 到 与 此 
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非 阻塞 通信 对 象 相对 应 的 通信 操作 完成 之 后 才 返 回 。 在 执行 MPI_Test 操作 时 ,如 果 要 
查询 的 非 阻塞 通信 操作 已 经 完成 , 则 它 完 成 于 MPI Wait 相同 的 功能 ,成 功 返 回 , 置 flag 
为 true, 并 释放 request 对 象 ; 否则 , 它 不 必 等 待 非 阻塞 通信 操作 结束 而 立即 返回 ,并 置 
flag 为 false。 同 时 也 无 须 释放 request 对 象 。 


(5) 取消 操作 
函数 原型 如 下 : 
int MPI_Cancel(MPI Request * request) 
OUTIN request 非 阻 塞 通信 对 象 


MPI Cancel 以 request 为 参数 ,可 以 取消 与 该 通信 对 象 相关 的 非 阻 塞 操作 ,并 释放 该 
操作 所 占用 的 资源 。 该 操作 可 以 立即 返回 ,但 是 却 不 能 保证 取消 操作 执行 成 功 。 取 消 操 
作 被 调用 时 ,如 果 相 对 应 的 非 阻 塞 通信 已 经 开始 , 则 该 操作 会 正常 完成 ,不 受 取消 操作 的 
影响 。 若 取消 操作 调用 时 ,如 果 相 对 应 的 非 阻塞 通信 还 没有 开始 , 则 可 以 释放 通信 所 占用 
的 资源 ,取消 该 非 阻塞 通信 。 对 于 非 阻塞 通信 ,即使 调用 了 取消 操作 ,也 必须 调用 非 阻塞 
通信 的 完成 操作 或 查询 对 象 的 释放 操作 来 释放 通信 对 象 。 

(6) 检测 取消 完成 操作 


函数 原型 如 下 : 

int MPI Test cancelled(MPI Status * status, int * flag) 
OUT status 通信 状态 
OUT flag 是 否 取消 标志 


MPI_Test_cancelled 操作 以 request 为 参数 ,可 以 检查 与 该 request 相关 的 非 阻塞 通 
信 操 作 是 否 被 取消 ,并 将 返回 结果 写 和 人 flag 中 。 如 果 flag 为 true, 则 该 通信 操作 已 被 取 
消 ; 否则 ,该 通信 操作 没有 被 取消 。 

(7) 通信 探测 操作 


阻塞 通信 探测 函数 原型 如 下 : 
MPI Probe(int source, int tag, MPI Comm comm, MPI Status * status) 
IN source 进程 的 标识 号 或 MPI ANY SOURCE([EXEUR) 
IN tag 消息 标签 或 MPI_ANY_TAG( 任 意 标签 ) 
IN Comm 通信 域 
OUT status 通信 状态 
JEP AE fA PRW PA AURRA F : 
MPI Iprobe(int source, int tag, MPI Comm comm, int * flag, MPI Status * status) 
IN source 进程 的 标识 号 或 MPI_ANY_SOURCE( 任 意 源 ) 
IN tag 消息 标签 或 MPI_ANY_TAG( 任 意 标签 ) 


IN Comm 通信 域 
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OUT flag 是 否 有 消息 到 达 的 标志 
OUT Status 通信 状态 

MPI Probe 和 MPI Iprobe 操作 允许 在 没有 实际 执行 消息 接收 的 情况 下 对 其 进行 检 
查 。 当 存在 一 个 消息 可 被 接收 并 且 MPI_Iprobe 与 参数 source、tag、comm 相 匹 配 时 , 它 
返回 的 flag 值 为 true。 该 调用 返回 的 状态 status 与 执行 接收 操作 所 收 到 的 消息 状态 相 
同 ,可 以 从 返回 的 状态 status 中 获取 source, tag 和 检查 消息 的 长 度 。 然 后 ,可 以 使 用 相 
匹配 的 接收 操作 接收 该 消息 。 

MPI Iprobe 的 source 参数 可 以 是 MPI_ANY_SOURCE( 任 意 源 ) ,tag 参数 可 以 是 
MPI_ANY_TAG( 任 意 标 签 ), 以 便 用 户 可 以 检查 来 自 不 确定 的 源 和 不 确定 标签 的 消息 。 
不 过 ,该 操作 必须 指定 一 个 通信 域 comm 来 指明 通信 的 上 下 文 。 一 个 消息 被 检查 后 并 不 
一 定 被 立即 接收 ,同样 ,一 个 消息 在 被 接收 之 前 可 能 被 检查 多 次 。MPI_Probe 与 MPI_ 
Iprobe 相似 ,只 是 它 是 一 个 阻塞 调用 ,只 有 找到 一 个 匹配 调用 之 后 才 返回 。 

(8) 通信 对 象 释放 操作 

函数 原型 如 下 : 

int MPI Request free(MPI Request * request) 

INPUT request 非 阻 塞 通信 对 象 

如 果 确 定 一 个 非 阻 塞 操作 已 经 完成 , 则 可 以 直接 调用 非 阻 塞 通信 对 象 释放 语句 
MPI Request. free 将 该 对 象 所 占用 的 资源 释放 ,而 不 是 通过 调用 非 阻 塞 通信 完成 操作 来 
间接 进行 释放 。 一 旦 执行 了 释放 操作 , 非 阻塞 通信 对 象 就 无 法 再 通过 其 他 任何 的 调用 访 
问 。 但 是 ,如 果 与 该 非 阻塞 通信 对 象 相关 的 通信 还 没有 完成 , 则 该 对 象 的 资源 并 不 会 立即 
释放 , 它 将 等 到 该 非 阻塞 通信 结束 之 后 再 释放 ,因此 , 非 阻 塞 通信 对 象 的 释放 并 不 影响 该 
非 阻塞 通信 的 完成 。 

3) 程序 实例 

针对 上 面 介绍 的 函数 ,使 用 如 下 程序 实例 进行 简单 示范 。 该 程序 开启 了 三 个 进程 , 进 
程 0 采用 非 阻塞 标准 通信 模式 分 别 向 进程 1 和 进程 2 发 送 一 个 整 型 数据 。 然 后 ,进程 1 
用 MPI Probe 方法 探测 来 自任 意 进程 .任意 标签 的 消息 ,如 果 检 测 到 是 进程 0 发 来 的 消 
息 则 采用 非 阻塞 方式 接收 ,并 采用 MPI_Test 方法 检测 接收 操作 是 否 完成 。 对 于 进程 2， 
则 先 采 用 非 阻 塞 方式 接收 ,然后 采用 MPI_Cancel 方法 取消 本 次 接收 操作 ,并 用 MPI_ 
Test cancelled 方法 判断 取消 操作 是 否 成 功 。 具 体 的 程序 代码 如 下 。 

MPI_Request request[2]; 

int rank, bsize, * buf,recv; 

int nums[2] = {0,1}; 


MPI_Init(&argcv &argv); /* 初始 化 mpi, 并 行程 序 开始 执行 * / 
MPI_Comm_rank( comm, &rank); /* 获得 当前 进程 的 标识 号 */ 


" 
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if(rank == 0) 
{ 
inti; 
/* 以 非 阻塞 的 方式 向 进程 1 和 进程 2 发 送 消息 * / 
for(i-0;i«2;i**) 
{ 
MPI Isend(&nums[i],1,MPI_INT, i+ 1,0, comm, &request[ i]); 
printf("Process 0 start the Isend Op to process %d.\n",i+1); 
) 
for(i-0;i«2;ic*) 
{ 
/* 等 待 消息 发 送 操作 的 完成 * / 
MPI Wait(&request[i],&status); 
printf("Process 0 have sent Mes to process *d.Wn",i*1); 
} 
} 
else if(rank == 1) 
{ 
/* 探测 来 自任 意 源 、 带 有 任意 标签 的 消息 
* MPI ANY SOURCE 任意 源 
* MPI ANY TAG 任意 标签 * / 
MPI Probe(MPI ANY SOURCE, MPI ANY TAG, comm, &status); 
if(status.MPI SOURCE -- 0 && status.MPI TAG-- 0) 
t 
/* 以 非 阻塞 方式 接收 来 自 进程 0 发 来 的 消息 * / 
MPI_Irecv(&recv, 1, MPI_INT, 0, 0, comm, &request[0]) ; 
printf("Process 1 start the Irecv Op from process 0. Wn"); 
j 
int flag 7 0; 
/* 检测 接收 操作 是 否 完成 ,并 立即 返回 * / 
MPI Test(&request[0], &flag, &status); 
if(flag) /* 消息 接收 操作 完成 * / 
printf("Process 1 Recv Mes From Process 0: $ d\n", recv); 
} 
else if (rank == 2) 
{ 
MPI_Irecv(&recv,1,MPI_INT, 0, 0, comm, &request[1]); 
printf("Process 2 start the Irecv Op from process 0. Xn"); 
/* 取消 此 次 非 阻塞 接收 操作 . 即使 调用 了 取消 操作 ,也 必须 调用 非 阻塞 通信 的 完 
* 成 操作 或 查询 对 象 的 释放 操作 来 释放 查询 对 象 * / 
MPI Cancel(&request[1]); 
MPI Wait(&request[1],&status); 
int flag- 0; 
/* 检测 取消 操作 是 否 成 功 */ 


m 
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MPI Test cancelled(&status, &flag); 
if(flag) /* 取消 操作 成 功 * / 
printf("Process 2 have cancelled the Irecv Op from Process 0.\n"); 
) 


程序 运行 结果 如 下 所 示 : 


Process 0 start the Isend Op to process 1. 
Process 0 start the Isend Op to process 2. 

Process 0 have sent Mes to process 1. 

Process 0 have sent Mes to process 2. 

Process 1 start the Irecv Op from process 0. 

Process 1 Recv Mes From Process 0:0 

Process 2 start the Irecv Op from process 0. 

Process 2 have cancelled the Irecv Op from Process 0. 


3.1.4 集合 通信 


集合 通信 需要 一 个 通信 域内 所 有 的 进程 都 要 参加 。 如 果 把 点 对 点 通信 比 作 两 个 人 之 
间 打 电话 ,那么 集合 通信 和 则 相当 于 小 组 内 所 有 成 员 一 起 讨论 。 集 合 通信 和 包括 很 多 类 型 , 按 
照 通信 的 方向 可 将 集合 通信 分 为 : 

。 一 对 多 通信 ; 

。 多 对 一 通信 ; 

。 多 对 多 通信 。 

按 通信 方式 ,又 可 将 集合 通信 分 为 : 
同步 ”通信 域 中 所 有 进程 都 到 达 之 后 ,每 个 进程 再 继续 运行 ; 
数据 传递 ”广播 .分散 收集、 全 部 到 全 部 ; 
。 规 约 ”通信 域 中 的 其 中 一 个 进程 收集 所 有 进程 的 数据 并 计算 (如 求 最 大 值 , 求 最 

小 值 .加 、 乘 等 ) 。 


1. 一 对 多 集合 通信 函数 


一 对 多 通信 , 即 在 一 个 通信 域内 ,以 其 中 一 个 进程 为 根 进程 ,向 其 他 所 有 的 进程 (包括 
该 进程 自己 ) 发 送 数 据 。 一 对 多 通信 和 包括 MPI_Beast( 广 播 )D 和 MPI_Scatter( 散 发 ) 两 种 操 


作 方 式 。 

1) MPI Bcast 

函数 原型 如 下 : 

int MPI Bcast(void* buffer ,int count, MPI Datatype datatype, int root, MPI Comm comm) 
INOUT buffer 通信 消息 缓冲 区 的 起 始 地 址 
IN count 即将 广播 出 去 /或 接收 的 数据 个 数 
IN datatype 广播 /接收 数据 的 数据 类 型 
IN root 根 进 程 的 标识 号 
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IN comm 通信 域 


在 MPL Bcast 操作 中 ,给 定 的 根 (root) 进 程 将 一 条 消息 广播 发 送 到 通信 域内 的 所 有 
其 他 的 进程 ,也 包括 该 进程 本 身 在 内 。 在 执行 该 调用 时 ,通信 域内 所 有 进程 (包括 该 进程 
自己 ) 都 使 用 同一 个 通信 域 comm 和 根 标识 root, 其 执行 结果 是 将 根 进程 通信 的 缓冲 区 中 
的 消息 拷贝 到 其 他 所 有 的 进程 中 去 。 在 执行 广播 操作 时 ,其 他 进程 指定 的 通信 元 素 个 数 
(count) ,数据 类 型 (datatype) 必 须 与 根 进程 指定 的 通信 元 素 个 数 (count)、 数 据 类 型 
(datatype) 保 持 一 致 。 即 对 于 广播 操作 ,不 管 是 广播 消息 的 根 进程 ,还 是 从 根 进程 接收 消 
息 的 其 他 进程 ,在 调用 形式 上 完全 一 致 ,都 需 指 明 相 同 的 根 进程 .相同 的 元 素 个 数 以 及 相 
同 的 数据 类 型 。 除 MPI Beast 之 外 ,其 他 集合 通信 都 有 此 限制 。MPI_Bcast 的 工作 示意 
图 如 图 3-16 所 示 。 


进程 1 进程 2 进程 3 进程 4 
0 一 一 执行 前 
0 0 0 0 | 一 执行 后 


Æ 3-16 MPI Bcast 通信 的 示意 图 
2) MPI Scatter 
函数 原型 如 下 : 


int MPI Scatter(void * sendbuf, int sendcount, MPI Datatype sendtype, void * recvbuf, int 
recvcount, MPI Datatype recvtype, int root, MPI Comm comm) 


IN sendbuf 发 送 消息 缓冲 区 的 起 始 地 址 
IN sendcount 发 送 到 各 个 进程 的 数据 个 数 
IN sendtype 发 送 消息 缓冲 区 中 的 数据 类 型 
OUT recvbuf 接收 消息 缓冲 区 的 起 始 地 址 
IN recvcount 待 接收 的 元 素 个 数 

IN recvtype 接收 元 素 的 数据 类 型 

IN root 根 进程 的 标识 号 

IN comm 通信 域 


与 MPI Bcast 不 同 的 是 ,MPI_Scatter 给 定 的 根 (root) 进 程 向 其 他 进程 发 送 的 数据 
可 以 是 不 同 的 。 对 于 所 有 的 非 根 进程 ,发 送 消息 缓冲 区 被 忽略 。 根 进程 中 的 发 送 数据 元 
素 个 数 sendcount 和 发 送 数据 类 型 sendtype 必须 与 所 有 进程 的 接收 数据 元 素 个 数 
recvcount 和 接收 数据 类 型 recvtype 相同 。 根 进程 发 送 数 据 元 素 个 数 指 的 是 发 送 给 每 一 
个 进程 的 数据 元 素 的 个 数 ,而 不 是 总 的 数据 个 数 。 这 就 意味 着 在 每 个 进程 域 根 进程 之 间 ， 
发 送 的 数据 个 数 必须 和 接收 的 数据 个 数 相等 。MPI Scatter 的 工作 示意 图 如 图 3-17 所 示 。 
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进程 进程 2 进程 3 进程 4 
1 一 -一 执行 前 
2 
3 
4 
1 2 3 4 | 一 一 执行 后 


图 3-17 MPI Scatter 通信 的 示意 图 


3) 程序 示例 


int rank, value; 


MPI Init(&argc, &argv) ; /* 初始 化 mpi, 并 行程 序 开始 执行 * / 
MPI_Comm_rank( comm, &rank); /* 获得 进程 号 * / 
if(rank == 0) 

value = 0; 


/* 进程 0 将 value=0 广 播 出 去 * / 
MPI_Bcast(&value, 1, MPI_INT, 0, comm) ; 
if(rank == 0) 
printf ("Process 0 execute bcast:value = 0\n"); 
printf("Process %d Recv bcast Mes:value- % d\n", rank, value); 


程序 运行 结果 如 下 所 示 : 


Process 0 execute bcast:value=0 
Process 0 Recv bcast Mes:value-B 
Process 2 Recv bcast Mes:value=0 
Process 1 Recv bcast Mes:value-ü 
Process 3 Recv bcast Mes:value-8 


2. 多 对 一 集合 通信 函数 


多 对 一 通信 , 即 在 一 个 通信 域内 ,以 其 中 一 个 进程 为 根 进程 ,其 他 所 有 的 进程 (包括 该 
进程 自己 ) 向 根 进程 发 送 数据 。 多 对 一 通信 和 包括 MPI_Gather( 收 集 ) 和 MPI_Reduce( 规 
约 ) 两 种 操作 方式 。 

1) MPI Gather 

函数 原型 如 下 : 


int MPI Gather(void * sendbuf, int sendcount, MPI Datatype sendtype, void * recvbuf, int 
recvcount, MPI Datatype recvtype, int root, MPI Comm comm) 
IN sendbuf 发 送 消息 缓冲 区 的 起 始 地 址 
IN sendcount 发 送 消息 缓冲 区 中 的 数据 个 数 
IN sendtype 发 送 消息 缓冲 区 中 的 数据 类 型 


并 行 计 算 机 及 编程 基础 


OUT recvbuf 
IN recvcount 
IN recvtype 
IN root 

IN comm 


接收 消息 缓冲 区 的 起 始 地 址 
待 接收 的 元 素 个 数 
接收 元 素 的 数据 类 型 

根 进程 的 标识 号 

通信 域 


MPI Gather 是 MPI Scatter 的 逆 过 程 。 在 收集 操作 中 ,每 个 进程 (包括 根 进程 本 身 ) 
将 其 发 送 缓冲 区 中 的 消息 发 送 到 给 定 的 根 (root) 进 程 , 根 进程 根据 发 送 进程 的 进程 标识 
号 ,将 它们 各 自 的 消息 依次 存放 到 自己 的 消息 缓冲 区 中 。 与 广播 操作 (广播 出 去 的 数据 都 
是 相同 的 ?不 同 的 是 ,收集 操作 从 各 个 进程 收集 到 的 数据 一 般 是 互 不 相同 的 。 其 结果 就 像 
一 个 进程 组 中 的 N 个 进程 (包括 根 进程 在 内 ) 都 执行 一 个 发 送 调用 ,而 根 进 程 执 行 了 N 


次 接收 调用 。 


在 收集 调用 中 ,每 个 进程 的 发 送 数据 个 数 sendcount 发 送 数据 类 型 sendtype 都 是 相 
同 的 , 均 分 别 与 根 进程 中 接收 数据 个 数 recvcount ,接收 数据 类 型 recvtype 相同 。 注 意 根 
进程 中 指定 的 接收 数据 个 数 是 指 从 每 一 个 进程 接收 数据 的 个 数 ,而 不 是 总 的 接收 个 数 。 
MPI Gather 的 工作 示意 图 如 图 3-18 所 示 。 


进程 1 


进程 2 进程 3 


进程 4 


2 


3 4 | 一 一 执行 前 


一 执行 后 


2) MPI_Reduce 
函数 原型 如 下 : 


oll- 


图 3-18 MPI Gather 通信 的 示意 图 


int MPI Reduce(void * sendbuf, void * recvbuf, int count, PI Datatype datatype, MPI Op op, 
int root, MPI Comm comm) 


IN sendbuf 
OUT recvbuf 
IN count 

IN datatype 
IN op 

IN root 

IN comm 


发 送 消息 缓冲 区 的 起 始 地 址 
接收 消息 缓冲 区 中 的 地 址 
发 送 消息 缓冲 区 中 的 数据 个 数 
发 送 消息 缓冲 区 的 元 素 类 型 
操作 类 型 

根 进程 的 标识 号 

通信 域 


在 MPI Reduce 操作 中 ,每 个 进程 (包括 根 进程 本 身 ) 将 其 发 送 缓冲 区 中 的 消息 发 送 
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到 给 定 的 根 (root) 进 程 , 根 进程 将 接收 到 的 各 个 进程 发 来 的 数据 按 给 定 的 操作 op 进行 运 
算 , 并 将 运算 结果 返回 到 根 进程 的 输出 缓冲 区 中 。 由 于 所 有 组 成 员 都 用 同样 的 参数 
count、datatype、op、root 和 comm 来 调用 该 函数 ,因此 所 有 进程 都 向 根 进 程 提供 长 度 相 
同 、 元 素 类 型 相同 的 输入 和 输出 缓冲 区 。 每 个 进程 可 能 向 根 进 程 提供 一 个 或 一 系列 元 素 
以 执行 op 操作 。MPI_Reduce 的 工作 示意 图 如 图 3-19 所 示 ( 图 3-19 中 ,执行 的 操作 op 
为 MPI_SUM)。 


进程 进程 2 进程 3 进程 4 
| 1 2 3 4 [e 执行 前 
| 10 一 一 执行 后 


图 3-19 MPI Reduce 通信 的 示意 图 


MPI 默认 地 定义 了 一 些 常用 的 规约 操作 ,如 表 3-6 所 示 。 此 外 ,根据 自己 的 需要 ,用 
户 还 可 以 用 MPI Op create 函数 创建 新 的 规约 操作 。 


表 3-6 MPI 预定 义 的 常用 规约 操作 


MPI 规约 操作 C 语言 数据 类 型 
MPI MAX 求 最 大 值 integer，float 
MPI MIN 求 最 小 值 integer, float 
MPI SUM 和 integer，float 
MPI PROD 乘积 integer. float 
MPI LAND 逻辑 与 integer 
MPI BAND 按 位 与 integer, MPI BYTE 
MPI LOR 逻辑 或 integer 
MPI BOR 按 位 或 integer. MPI BYTE 
MPI LXOR 逻辑 异 或 integer 
MPI BXOR 按 位 异 或 integer. MPI BYTE 
MPI MAXLOC 最 大 值 和 存储 单元 float, double, long double 
MPI MINLOC 最 小 值 和 存储 单元 float，double and long double 


3) 程序 实例 


int rank, size, i, num[ 100]; 


MPI Init(&argc, &argv); /* 初始 化 mpi, 程序 的 开始 并 行 执行 * / 
MPI_Comm_rank(comm, &rank); /* 获得 当前 进程 的 标识 号 * / 
MPI Comm size(comm,&size); /** 获得 总 的 进程 数 * / 


/* 进程 0 从 通信 域 中 的 所 有 进程 收集 数据 并 存储 在 数组 num 中 */ 
MPI_Gather(&rank, 1, MPI_INT, num, 1, MPI_INT, 0, comm); 

if(rank == 0) 

{ 


a 


E O 


并 行 计 算 机 及 编程 基础 


printf("Process 0 gather from other Process:\n"); 


for(i=0;i<size;it+) 
{ 
printf(" % 4d", num[i]); 
if((i+1)%4==0) 
printf("\n"); 
} 
printf ("\n"); 
} 


程序 运行 结果 如 下 所 示 : 


Process 0 gather from other Process: 
6 12 3 


4 5 6 7 


3. 多 对 多 集合 通信 函数 


1) MPI_Allgather 
函数 原型 如 下 : 


int MPI Allgather(void * sendbuf, int sendcount, MPI Datatype sendtype, void* recvbuf, int 
recvcount, MPI Datatype recvtype, MPI Comm comm) 

发 送 消息 缓冲 区 的 起 始 地 址 

发 送 消息 缓冲 区 中 的 数据 个 数 

发 送 消息 缓冲 区 中 的 数据 类 型 

接收 消息 缓冲 区 的 起 始 地 址 

从 其 他 进程 中 接收 的 数据 个 数 

接收 消息 缓冲 区 的 数据 类 型 


IN sendbuf 
IN sendcount 
IN sendtype 
OUT recvbuf 
IN recvcount 
IN recvtype 
IN comm 


通信 域 


在 MPL Allgather 操作 中 ,每 个 进程 都 收集 其 他 所 有 进程 (包括 该 进程 自己 ) 发 来 的 
消息 ,相当 于 每 个 进程 都 执行 了 一 次 MPI_Gather 操作 。 在 执行 完 MPI_Allgather 之 后 
组 内 所 有 进程 的 接收 缓冲 区 中 的 数据 都 是 相同 的 。 其 工作 示意 图 如 图 3-20 所 示 。 


一 一 执行 前 


一 一 执行 后 


进程 ! 进程 2 进程 3 进程 4 
1 2 3 4 
1 1 1 1 
2 2 2 2 
3 3 3 3 
4 4 4 4 
图 3-20 MPI Allgather 通信 的 示意 图 
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2) MPI Allreduce 
函数 原型 如 下 : 


int MPI Allreduce(void * sendbuf, void * recvbuf, int count, MPI Datatype datatype, MPI Op 
op, MPI Comm comm) 


IN sendbuf 发 送 消息 缓冲 区 的 起 始 地 址 
OUT recvbuf 接收 消息 缓冲 区 的 起 始 地 址 
IN count 发 送 消息 缓冲 区 中 的 数据 个 数 
IN datatype 发 送 消息 缓冲 区 中 的 数据 类 型 
IN op 操作 类 型 

IN comm 通信 域 


MPI Allreduce 操作 相当 于 先 执行 MPI Reduce 操作 ,然后 再 执行 MPI_Bcast 操作 。 
其 工作 示意 图 如 图 3-21 所 示 ( 图 3-21 中 ,执行 的 操作 op 为 MPI_SUM)。 


进程 1 进程 2 进程 3 进程 4 
1 2 3 4 “| 一 一 执行 前 
| 10 10 10 10 “| 一 一 执行 后 


Æ 3-21 MPI Allreduce 通信 的 示意 图 
3) MPI_Alltoall 
函数 原型 如 下 : 


int MPI Alltoall(void * sendbuf, int sendcount, MPI Datatype sendtype, void * recvbuf, int 
recvcount, MPI Datatype recvtype, MPI Comm comm) 


IN sendbuf 发 送 消息 缓冲 区 的 起 始 地 址 
IN sendcount 发 送 到 每 个 进程 的 数据 个 数 
IN sendtype 发 送 消息 缓冲 区 中 的 数据 类 型 
OUT recvbuf 接收 消息 缓冲 区 的 起 始 地 址 
IN recvcount 从 每 个 进程 中 接收 的 元 素 个 数 
IN recvtype 接收 消息 缓冲 区 的 数据 类 型 
IN comm 通信 域 


MPI Alltoall 是 在 域内 进程 之 间 进 行 完全 的 消息 交换 。 其 中 ,每 一 个 进程 都 向 其 他 
所 有 进程 发 送 消息 ,同时 ,每 一 个 进程 都 从 其 他 所 有 进程 接收 消息 。 调 用 MPI_Alltoall 
相当 于 每 个 进程 依次 将 它 的 发 送 缓冲 区 的 第 i 块 数据 发 送 给 第 i 个 进程 ,同时 每 个 进程 
又 都 依次 从 第 j 个 进程 接收 数据 并 放 到 各 自 接收 缓冲 区 的 第 j 块 数据 区 的 位 置 。 其 工作 
示意 图 如 图 3-22 所 示 。 


a 


E O 


并 行 计算 机 及 编程 基础 
进程 1 进程 2 进程 3 进程 4 
1 5 9 13 ”| 一 一 执行 前 
2 6 10 14 
3 7 11 15 
4 8 12 16 
1 2 3 4 | 一 执行 后 
5 6 7 8 
9 10 n" 12 
13 14 12 16 
图 3-22 MPI Alltoall 通信 的 示意 图 
4) MPI_Scan 
函数 原型 如 下 : 


int MPI Scan(void * sendbuf, void * recvbuf, int count, MPI Datatype datatype, MPI Op op, 
MPI Comm comm) 


IN sendbuf 
OUT recvbuf 
IN count 

IN datatype 
IN op 

IN comm 


发 送 消息 缓冲 区 的 起 始 地 址 
接收 消息 缓冲 区 的 起 始 地 址 
输入 缓冲 区 中 元 素 的 个 数 
输入 缓冲 区 中 元 素 的 类 型 


操作 类 型 
通信 域 


可 以 将 MPI Scan 看 作 一 种 特殊 的 归 约 , 即 每 一 个 进程 都 对 排 在 它 前 面 的 进程 进行 
归 约 操作 。MPI_Scan 调用 的 结果 是 ,就 进程 i 来 说 , 它 将 进程 0、 进程 1 一 直到 进程 i 的 
发 送 缓 冲 区 的 数据 进行 指定 的 归 约 操作 ,并 将 结果 存 和 人 进程 i 的 接收 缓冲 区 。 其 工作 示 
意图 如 图 3-23 所 示 ( 图 3-23 中 ,执行 的 操作 op 为 MPI_SUM)。 


进程 1 进程 2 进程 3 进程 4 
1 2 3 4 | 一 一 执行 前 
| 1 3 6 10 | 一 -一 执行 后 


5) 程序 示例 


int rank, size, buf; 

MPI Init(&argc,&argv); 

MPI Comm rank(comm, &rank); 
MPI Comm size(comm,&size); 


图 3-23 MPI Scan 通信 的 示意 图 


/* 初始 化 mpi, 并 行程 序 开始 执行 * / 


/* 获得 当前 进程 的 标识 号 
/* 获得 总 的 进程 数 * / 


x/ 
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/* 各 进程 将 所 有 进程 的 rank 值 进行 求 和 归 约 ,然后 存储 在 各 自 进程 的 buf 中 / 
MPI Allreduce(&rank, gbuf, 1, MPI_INT, MPI_SUM, comm) ; 
printf("Process % d have executed allreduce : buf = % d\n", rank, buf); 


程序 运行 结果 如 下 所 示 : 


Process 0 have executed allreduce : buf=6 
Process 2 have executed allreduce : buf-6 
Process 1 have executed allreduce : buf-6 
Process 3 have executed allreduce : buf-6 


4. 同步 操作 MPI Barrier 


MPI Barrier 可 在 进程 组 中 建立 一 个 同步 栅栏 , 当 每 个 进程 都 到 达 该 同步 栅栏 之 后 ， 
程序 才 接 着 往 下 执行 ,只 要 有 一 个 进程 未 到 达 该 同步 栅栏 , 则 所 有 其 他 已 到 达 该 同步 栅栏 
的 进程 都 必须 等 待 。 同 步 的 作用 是 当 进程 完成 同步 调用 之 后 ,可 以 保证 所 有 的 进程 都 已 
执行 了 同步 点 之 前 的 操作 。 


函数 原型 如 下 : 
int MPI_Barrier(MPI_Comm comm) 
IN comm 通信 域 


MPI_Barrier 阻塞 所 有 的 调用 者 直到 所 有 的 进程 组 成 员 都 调用 了 它 , 这 之 后 ,各 个 进 
程 中 的 该 调用 才 可 以 返回 。 


3.1.5 并 行 VO 


当前 ,许多 并 行 计算 机 能 提供 充分 的 硬件 资源 和 高 性 能 的 并 行文 件 系统 ,它们 支持 多 
个 进程 并 行 访问 同一 个 文件 。 为 此 ,MPI 提供 了 并 行 /O 函数 ,使 得 MPI 程序 中 的 多 个 
进程 能 够 并 行 地 访问 同一 文件 ,并 获得 并 行 计算 机 提供 的 高 性 能 文件 系统 服务 。MPI 根 
据 不 同 的 文件 访问 特征 ,将 并 行 /0O 方法 分 为 简单 并 行 /O、 显 示 偏 移 并 行 1/O、 非 连续 
访问 并 行 1/0, RAHIT IO、 阵 列 并 行 WO、 非 阻塞 并 行 1/0 和 共享 文件 指针 并 行 IO 
等 。 下 面 ,对 部 分 常用 的 并 行 L/O 方法 进行 简要 介绍 。 


1. 简单 的 并 行 /O 

1) 基本 函数 介绍 

首先 介绍 一 下 并 行 1/O 常用 的 基本 函数 ,如 表 3-7 Bros 
表 3-7 #4171/0 常用 的 基本 函数 


函数 名 函数 原型 
打开 文件 MPI_ File_open(comm, filename. mode. info. myfile) 
文件 寻 址 MPI File seek(fh, offset, whence) 


P 


e 422 并 行 计 算 机 及 编程 基础 
续 表 
函数 名 ROG OO 型 
文件 读 取 MPI File read(fh. * buf. count. datetype. * status) 
文件 写 人 MPI File write(fh, * buf, count, datetype, * status) 
关闭 文件 MPI File close( * myfile) 


各 函数 参数 汇总 详解 如 表 3-8 所 示 。 
表 3-8 函数 中 的 参数 


参数 名 参数 解释 
comm 进程 所 属 的 通信 子 对 象 

filename 进程 打开 或 关闭 的 文件 名 

mode 文件 的 创建 或 访问 方式 

info 各 进程 交 给 MPI 系 统 的 附加 提示 信息 
myfile 各 进程 获得 的 文件 连接 器 

fh 文件 连接 器 

offset 文件 指针 的 偏 移 量 

whence 文件 指针 偏 移 量 的 起 始 位 置 

buf 待 写 人 或 读 取 的 数据 缓冲 区 的 起 始 位 置 
count 待 写 人 或 读 取 的 数据 单元 的 个 数 
datetype 待 写 人 或 读 取 的 数据 单元 的 类 型 
status 数据 写 人 或 读 取 的 状态 信息 


函数 MPI File open 的 第 3 个 参数 mode 表示 文件 打开 时 ,赋予 该 进程 访问 该 文件 
的 权限 。MPI 支持 的 文件 权限 如 表 3-9 所 示 。 


表 3-9 MPI 支 持 的 文件 权限 


Mode 


x 件 权 限 


MPI MODE CREATE 

MPI MODE RDONLY 

MPI MODE WRONLY 

MPI MODE RDWR 

MPI MODE EXCL 

MPI MODE DELETE ON CLOSE 
MPI MODE UNIQUE OPEN 

MPI MODE SEQUENTIAL 

MPI MODE APPEND 


如 果 文 件 不 存在 , 则 创建 该 文件 
只 读 

只 写 

读 写 

如 果 要 创建 的 文件 已 存在 则 报错 
关闭 时 删除 文件 

不 允许 同时 打开 文件 

顺序 方式 访问 文件 

所 有 文件 指针 指向 文件 末尾 
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注意 ,文件 权限 可 以 琶 加 使 用 ,这 样 的 文件 就 有 了 多 重 权限 ,如 MPI_MODE_ 
CREATE| MPI_MODE_RDWR。 但 是 , MPI_MODE_CREATE 不 可 与 MPI MODE. 
EXCL 合用 ,MPI _MODE_SEQUENTIAL 不 可 和 MPI_MODE_RDWR 合用 。 

至 此 ,前 面 介 绍 的 5 个 MPI 并 行 IJVO 函数 已 经 能 够 满足 MPI 并 行 应 用 程序 的 任何 
WO 需求。 此 外 ,MPI 还 提供 了 一 系列 其 他 并 行 1/O 函数 ,以 简化 并 行 编程 .提高 1/0 性 
能 和 增强 程序 的 可 移植 性 ,将 在 后 续 章 节 对 此 进行 简要 介绍 。 

2) 程序 示例 

在 下 面 程序 中 ,启动 两 个 进程 ,以 共享 文件 指针 的 形式 ,分 别 向 当前 文件 夹 下 的 file 
文件 写 和 "Hello" 和 "World" 字 串 。 该 程序 的 代码 如 下 。 


MPI File myfile; 
int rank; 
char buf[5]; 
MPI Init(&argc, &argv); /* 初始 化 mpi, 并 行程 序 开始 执行 * / 
MPI Comm rank(comm, &rank); /* 获得 当前 进程 的 标识 号 * / 
/* 各 进程 打开 相同 的 文件 ,获得 各 自 的 文件 连接 器 * / 
int res = MPI File open(conm,"./file",MPI MODE RDWR,MPI INFO NULL, &myfile); 
if(res) /* 如 果 打 开 文 件 失败 * / 
€ 
printf("Unable open file V". /file\"\n"); 
} 
else 
{ 
/* 确定 文件 连接 器 中 文件 指针 在 文件 中 的 位 置 * / 
MPI File seek(nyfile,rank * 5 * sizeof(char),MPI SEEK SET); 
if(rank-- 0) 
buf = "Hello"; 
else if(rank-- 1) 
buf 7 "World"; 
/* 各 进程 将 缓冲 区 but 中 的 内 容 写 入 该 文件 中 * / 
MPI File write(myfile, buf,5,MPI_CHAR, &status); 
printf("Process %d have written to the file: % s\n", rank, buf); 
MPI File close(&nyfile); /* 各 进程 释放 各 自 的 文件 连接 器 * / 
} 


程序 运行 结果 如 下 所 示 : 


Process 8 have written to the file:Hello 
Process 1 have written to the file:World 


2. 显示 偏 移 并 行 /0 
上 一 节 介 绍 了 MPI File read 和 MPI File write 函数 具有 相同 的 特征 , 即 各 个 进程 


m 


423 S 
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拥有 独立 的 文件 指针 ,而 且 数 据 的 读 写 必 须 从 文件 指针 指定 的 初始 位 置 开 始 。 为 了 简化 
文件 指针 的 定位 ,MPI 系 统 提供 了 另外 两 个 1/0 函数 : MPI File read at 和 MPI_File_ 
write_at。 它 们 能 够 直接 从 文件 的 任意 给 定位 置 开 始 读 写 数据 ,而 且 , 不 需要 借助 函数 
MPI File seek 在 读 写 操作 执行 之 前 为 文件 指针 定位 ,这 种 操作 称 为 显示 偏 移 I/O 函数 。 

1) 基本 函数 介绍 

。 调用 MPI 显示 偏 移 L/O 读 函数 MPI_File_read_a, 各 个 进程 可 从 指定 位 置 开始 读 

取 文件 中 的 数据 。 
函数 原型 如 下 : 


int MPI File read at(MPI File fh, MPI Offset offset, void * buf, int count, MPI Datatype 
datatype, MPI Status * status) 


IN fh 文件 连接 器 
IN offset 读 取 位 置 相 对 于 文件 头 的 偏 移 量 
OUT buf 读 取 数据 存放 的 缓冲 区 
IN count 读 取 数 据 个 数 
IN datatype 读 取 数 据 的 数据 类 型 
OUT status 返回 的 状态 参数 
* 调用 MPI 显示 偏 移 L/O S PR MPI_File_write_at, 各 个 进程 可 从 指定 位 置 开 始 
将 数据 写 入 文件 中 。 
函数 原型 如 下 : 


int MPI File write at(MPI File fh, MPI Offset offset, void * buf, int count, MPI Datatype 
datatype, MPI Status * status) 

( 它 的 参数 定义 与 MPI_File_read_at 相同 ) 

函数 MPI File read at 表示 各 个 进程 从 fh 连接 的 文件 的 第 一 个 offset 个 字 节 开始 ， 
连续 读 取 count 个 类 型 为 datatype 的 数据 单元 ,并 将 其 存储 在 buf 中 。 同 样 , MPI_File_ 
write at 函数 表示 各 个 进程 从 fh 连接 的 文件 的 第 offset 个 字 节 开始 ,将 数组 buf 包含 的 
连续 count 个 类 型 为 datatype 的 数据 单元 写 和 文件 中 。 

2) 程序 实例 

在 下 面 的 程序 中 ,启动 两 个 进程 ,以 独立 文件 指针 显示 偏 移 的 形式 , 读 取 当 前 文件 夹 
下 的 file 文 件 ,file 中 的 内 容 为 "HelloWorld"。 该 程序 的 代码 如 下 。 

MPI File myfile; 

int rank; 

char buf[5]; 

MPI Init(&argc,&argv); /* 初始 化 mpi, 程 序 开始 并 行 执 行 * / 

MPI Comm rank(comm, &rank); /* 获得 当前 进程 的 标识 号 * / 

/* 各 进程 打开 相同 的 文件 ,获得 各 自 的 文件 连接 器 * / 


第 3 章 并行 编程 模型 与 语言 


int res = MPI File open(comm,"./file",MPI MODE RDWR,MPI INFO NULL, &mnyfile); 
if(res) /* 如 果 打 开 文件 失败 * / 
printf("Unable open file V". /file\"\n"); 

else 

$ 
/* 以 buf 为 缓冲 区 ,各 个 进程 从 文件 中 读 取 5 个 MPI_CHAR 类 型 的 数据 * / 
MPI File read at(myfile, rank * 5 * sizeof(char),buf,5,MPI CHAR,&status); 
printf("Process % d have readed from the file: % s\n", rank, buf) ; 
MPI File close(Sayfile); — /* 各 个 进程 释放 各 自 的 文件 连接 器 * / 


} 
程序 运行 结果 如 下 所 示 : 


Process 0 have readed from the file:Hello 
Process 1 have readed from the file:World 


3. 其 他 文件 操作 方式 


除了 上 述 两 种 并 行 1/O 操作 之 外 ,MPI 还 提供 了 其 他 更 高 效 的 并 行 1/0 操作 方式 ， 
由 于 篇 幅 有 限 ,下 面 只 对 其 进行 简要 介绍 。 

D 非 连续 访问 并 行 IO 

前 面 介绍 的 两 种 并 行 L/O 模式 都 默认 对 文件 中 连续 的 数据 单元 进行 。 但 是 ,假设 
MPI 程序 中 某 些 进程 需要 访问 该 文件 中 的 个 数据 单元 ,而 这 个 数据 单元 在 文件 中 是 
非 连续 存储 的 。 如 果 直 接 使 用 MPI_File_read 函数 或 MPI_File_read_at 函数 逐个 进行 访 
问 , 那 么 一 共 需 要 次 V/O 操作 ,显然 这 样 做 的 效率 比较 低 。 为 此 ,MPI 系统 提供 了 文件 
窗口 的 概念 。 

给 定 一 个 文件 ,函数 MPI File set view 可 以 确定 该 文件 中 哪些 数据 可 以 被 某 个 进 
程 访问 ,并 称 这 些 数据 为 该 进程 在 该 文件 中 获得 的 文件 窗口 。 在 文件 窗口 中 ,可 以 认为 所 
有 的 数据 单元 是 连续 存储 的 。 所 以 ,如 果 某 个 进程 要 访问 一 个 文件 中 的 非 连续 存储 的 数 
据 单元 ,可 以 给 该 进程 设置 一 个 文件 窗口 来 包含 所 有 要 访问 的 数据 单元 。 这 样 ,该 进程 对 
这 些 数据 单元 的 访问 就 等 价 于 对 该 文件 窗口 中 连续 数据 单元 的 访问 。 

调用 MPI File set view 函数 可 定义 文件 窗口 ,函数 原型 如 下 : 


int MPI File set view (MPI File fh, MPI Offset disp, MPI Datatype etype, MPI Datatype 
filetype, char * datarep, MPI Info info) 


INOUT fh 对 应 文件 的 文件 连接 器 
IN disp 在 文件 中 的 偏 移 位 置 
IN etype 基本 数据 类 型 

IN filetype 文件 类 型 

IN datarep 数据 的 表示 方法 


IN info 传递 给 运行 时 的 信息 
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2) 聚合 并 行 IO 

在 同一 时 刻 ,如 果 有 多 个 进程 访问 同一 个 文件 , 则 可 能 导致 多 次 小 数据 量 的 1/0 i 
问 , 这 将 会 影响 并 行 1/O 的 性 能 。 为 此 ,MPI 系统 提供 了 聚合 I/O 函数 , 它 负 责 协调 执行 
VO 访问 的 多 个 进程 之 间 的 关系 ,并 将 多 个 进程 需要 访问 的 数据 聚合 在 一 起 ,只 进行 一 次 
文件 访问 操作 ,从 而 提高 并 行 1/O 的 性 能 。 

调用 MPI RA 1/0 读 函 数 MPI_File_write_all, 各 个 进程 从 同一 文件 中 读 取 数据 。 
函数 原型 如 下 : 


int MPI_File read all(MPI File fh, void * buf, int count, MPI_Datatype datatype, MPI_Stat 
us * status) 


IN fh 文件 连接 器 

OUT buf 读 取 数 据 存放 的 缓冲 区 
IN count 读 取 数 据 个 数 

IN datatype 读 取 数 据 的 数据 类 型 
OUT status 返回 的 状态 参数 


MP RE 1/0 写 函 数 , 各 进程 将 各 自 数据 写 入 同一 文件 中 。 函 数 原型 如 下 : 


int MPI File write all(MPI File fh, void * buf, int count, MPI Datatype datatype, MPI Stat 
us * status) 


IN fh 文件 连接 器 

OUT buf 读 取 数 据 存放 的 缓冲 区 
IN count 读 取 数 据 个 数 

IN datatype 读 取 数据 的 数据 类 型 
OUT status 返回 的 状态 参数 


3) 共享 文件 指针 

在 前 面 所 讲 的 所 有 并 行 VO 操作 中 ,每 个 进程 都 拥有 自己 各 自 独立 的 文件 指针 ， 
每 个 进程 的 文件 指针 的 变化 不 会 影响 其 他 进程 的 文件 指针 。 除 此 之 外 ,MPI 系统 还 
提供 了 共享 文件 指针 的 方法 , 即 所 有 的 进程 对 同一 个 文件 进行 操作 时 共享 同一 个 文件 
指针 。 

MPI E E T PRÉC MPI File read shared 和 MPI File_write_shared ,负责 各 个 进 
程 从 共享 文件 指针 所 指 的 当前 位 置 开始 读 写 文件 中 的 数据 。 各 个 进程 通过 MPI_File_ 
seek shar ed 函数 显示 地 移动 共享 文件 指针 。 这 3 个 函数 的 参数 列表 分 别 与 MPI_File_ 
read, MPI File _wri te 和 MPI File seek 的 参数 列表 完全 相同 。 

4) 非 阻塞 并 行 /O 

前 面 所 讲 的 所 有 并 行 1/0 函数 均 采用 阻塞 方式 , 即 只 有 当 这 些 函 数 执行 的 1/0 访问 
完成 之 后 才能 返回 。 除 此 之 外 .MPI 还 提供 了 非 阻 塞 式 的 并 行 L/O 操作 方法 。 具 体 函 数 
见 表 3-10。 
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53-10 非 阻塞 式 的 并 行 7O 函数 
阻塞 式 并 行 IO 函数 非 阻塞 式 并 行 IO 函数 
MPI File read MPI File iread 
MPI File write MPI File iwrite 
MPI File read at MPI File iread at 
MPI File write at MPI File iwrite at 


MPI File read shared 
MPI File write shared 


MPI File iread shared 
MPI File iwrite shared 


3.1.6 MPI 应 用 实例 


下 面 给 出 一 个 计算 pi 的 程序 , 供 大 家 参考 。 程 序 的 代码 如 下 。 


* include "mpi. h" 
# include < stdio.h» 
# include < math. h> 


double fun(double x); 


/* 定义 函数 fun(x) */ 


int main (int argc, char * argv[]) 


( 


MPI Comm comm - MPI COMM WORLD; 
int n= 0, rank, size, i; 
double PI25DT = 3. 141592653589793238462643; 
double mypi, pi, h, sum, x; 
MPI_Status status; 
MPI_Init(&argc, &argv); 
MPI Comm size(MPI COMM WORLD, &size); 
MPI Comm rank(MPI COMM WORLD, &rank); 
if (rank-- 0) 
t 
printf("Please give N="); 
scanf(" $ d", &n) ; 
i 
/* 进程 0 广播 n 的 值 * / 
MPI_Bcast (gn, 1,MPI_INT, 0, comm); 
h=1.0/(double) n; 
sum= 0.0; 


/x* 每 一 个 进程 计算 一 部 分 矩形 的 面积 , 若 总 的 进程 数 size 为 4 的话 , 则 将 0~1 区 


* 间 划 分 为 100 个 矩形 .各 个 进程 分 别 计 算 矩 形 块 
* 进程 0: 1,5,9,13, —,97 
* 进程 1: 2,6,10,14, …,98 
* 进程 2: 3,7,11,15, …,99 
* 进程 3: 4,8,12,16, -,100* / 
for(i- rank*1;i«-n;i*- size) 


e 


m 


" 
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{ 
x-h* ((double)i- 0.5); 
sum += fun(x); 
) 
mypi = hx sum; /* 各 进程 并 行 计算 得 到 的 部 分 和 * / 
/* 进程 0 执行 归 约 操作 ,将 各 个 进程 计算 出 的 部 分 和 累加 ,得 到 所 有 矩形 的 面积 , 
* 该 面积 和 即 为 近似 PI 值 */ 
MPI_Reduce(&mypi, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, comm) ; 
if(rank-- 0) 
{ 
printf("pi is approximately % .16f\n", pi); 
printf("Error is % .16fWn", fabs(pi-PI25DT)) ; 
} 
MPI_Finalize(); 
} 
double fun(double x) 
{ 
return(4.0/(1.0* x*x)); 
} 
程序 运行 如 下 所 示 : 
Please give N-1800 


pi is approximately 3.1415927369231262 
Error is 0.0000000833333331 


Bosra 


本 节 详 细 介绍 了 MPI 的 特点 及 其 发 展 历程 ,然后 以 一 个 简单 的 MPI 程序 为 例 讲解 
了 MPI 编程 环境 的 安装 与 配置 ,并 介绍 了 一 些 常用 的 MPI 基本 函数 。 此 外 本 节 还 针对 
MPI 编程 模型 中 的 点 对 点 通信 、 集 合 通 信和 并 行 1/0 方法 做 了 详细 的 讲解 ,并 通过 一 些 
简单 的 程序 实例 向 读者 展示 了 相关 函数 的 使 用 方法 。 

由 于 篇 幅 有 限 ,本 节 只 介绍 了 一 些 MPI 的 基本 编程 方法 ,其 他 诸如 MPI 进程 组 与 通 
信 域 管理 .进程 拓扑 MPI 环境 管理 等 更 深层 次 技术 在 这 里 没有 做 进一步 讲解 。 如 对 这 
部 分 内 容 感 兴趣 的 话 ,读者 可 以 参考 其 他 MPI 教 材 。 

MPI 作为 一 种 成 熟 的 并 行 编程 模型 已 在 众多 领域 得 到 广泛 的 应 用 ,希望 读者 通过 本 
节 内 容 的 介绍 ,能 对 其 有 一 定 的 了 解 , 并 能 将 其 成 功 运用 到 实际 的 工程 实践 当中 。 


3.2 OpenMP 


OpenMP(Open Multi-Processing) 是 适用 于 共享 内 存 多 处 理 器 体系 结构 的 可 移植 并 
行 编 程 模 型 。 其 应 用 程序 接口 由 SGI 公司 发 起 ,由 一 些 主 要 的 计算 机 硬件 与 软件 厂商 制 
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定 并 得 到 认可 。 其 规范 由 “OpenMP 体系 结构 审议 委员 会 (Architecture Review Board, 
ARB)" 创 立 并 发 布 。 

目前 ,OpenMP 规范 的 最 新 版 本 是 3.0, 支 持 Fortran,C 与 C++。 支持 OpenMP 的 编 
译 器 包括 Sun Studio, Intel Compiler、 开 放 源 码 的 GCC 和 Open64 编译 器 等 。OpenMP 
能 够 支持 多 种 平台 ,包括 大 多 数 的 类 UNIX 系统 (包括 Linux) 以 及 Windows NT 系统 ( 包 
括 Windows 2000, Windows XP, Windows Vista 等 ) 。 

OpenMP 是 通过 编译 指导 、 函 数 调用 和 环境 变量 的 方式 , 显 式 地 指导 编译 器 怎样 、 什 
么 时 候 利 用 应 用 程序 的 并 行 性 ,而 无 须 程序 员 手 工 处 理 复 杂 的 诸如 线程 创建 .同步 、 负 载 
均衡 和 销毁 等 技术 细节 。 


3.2.1 OpenMP 简介 


1. OpenMP 的 发 展 历程 


1994 年 ,提出 第 一 个 ANSI X3H5 草案 ,被 否决 ; 

1997 年 ,OpenMP 标准 规范 代替 原先 被 否决 的 ANSI X3H5 ,被 认可 ; 

1997 4E 10 H ,发 布 与 Fortran 语言 拥 绑 的 第 一 个 标准 规范 FORTRAN version1. 0; 
1998 年 11 月 9 日 ,发 布 支持 C 和 C++ 的 标准 规范 C/C++ version1. 0; 

2000 4E. 11 月, 发布 FORTRAN version2.0; 

2002 年 3 H ,发布 C/C++ version2. 0; 

2005 年 5 H ,发布 OpenMP2. 5, 将 原来 的 Fortran 和 C/C++ 标准 规范 相 结 合 s 

2008 年 3 月 ,发布 OpenMP3.0 标准 。 

相关 规范 可 在 http://www. openmp. org/drupal/node/view/8 中 下 载 。 


2. 为 什么 使 用 OpenMP 


OpenMP 的 应 用 程序 接口 (APD 是 在 共享 存储 体系 结构 上 的 一 个 编程 模型 , 它 包 含 
编译 指导 (Compiler Directive) ,35 £T PA T E (Runtime Library) 和 环境 变量 (Environment 
Variables) 三 部 分 。 
OpenMP 是 编译 指令 与 库 函数 的 集合 ,这 些 编译 指令 和 库 函 数 主要 用 于 创建 共享 存 
储 计算 机 的 并 行程 序 。OpenMP 组 合 了 C、C++ 或 Fortran, 以 创建 一 种 多 线程 编程 语言 。 
它 的 语言 模型 基于 这 样 一 种 假设 : 假设 执行 单元 是 共享 同一 地 址 空间 的 线程 。 
OpenMP 具有 两 个 特性 : 串 行 等 价 性 和 增 量 并 行 性 。 
。 串 行 等 价 性 : 当 一 个 程序 无 论 是 使 用 一 个 线程 运行 还 是 使 用 多 个 线程 运行 时 , 它 
都 能 够 产生 相同 的 结果 , 则 该 程序 具有 串 行 等 价 性 。 在 大 多 数 情形 下 ,具有 串 行 
等 价 性 的 程序 更 易于 维护 和 理解 (因此 也 更 容易 编写 ) 。 
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。 增 量 并 行 性 : 这 是 一 种 并 行 的 编程 类 型 。 处 理 器 从 一 个 串 行程 序 开 始 , 一 块 接着 
一 块 地 寻找 那些 值得 并 行 化 的 代码 段 。 这 样 ,并 行 性 被 逐渐 地 添加 。 在 该 过 程 的 
每 个 阶段 ,存在 一 个 可 以 被 验证 的 程序 ,这 极 大 地 增加 了 程序 并 行 化 的 成 功 概率 。 


3. OpenMP 的 Fork-Join 模型 


OpenMP 的 执行 模型 采用 Fork-Join 的 形式 ,以 线程 为 基础 ,通过 编译 指导 语句 显 式 
地 指导 并 行 化 ,为 编程 人 员 提供 了 对 并 行 化 过 程 的 完全 控制 ,如 图 3-24 所 示 。 
线程 是 具有 独立 执行 命令 能 力 的 运行 单 


msa 2 :EE ] 位 , 当 操作 系统 创建 一 个 进程 来 执行 程序 时 ， 
"i E S[ o 它 会 给 这 个 进程 分 配 一 定 的 资源 ,比如 内 存 空 
广 -一 间 和 寄存 器 资源 。 当 一 个 进程 的 多 个 线程 共 

并 行 域 并 行 域 同 执行 一 个 程序 时 , 则 各 个 线程 会 共享 它们 所 

图 3-24 Fork-Join 模型 属 的 进程 的 资源 ,比如 内 存 地 址 空间 。 单 独 的 


线程 只 需要 很 少 的 资源 ,例如 程序 计数 器 和 一 
块 存储 其 私有 变量 (如 寄存 器 和 堆栈 ) 的 内 存 区 域 。 

多 个 线程 可 以 通过 上 下 文 切换 的 方式 在 单 处 理 器 或 者 单 核心 上 执行 ,或 者 以 并 发 多 
线程 的 方式 交替 执行 。 当 多 个 线程 同时 在 多 处 理 器 或 者 多 核心 上 工作 时 ,它们 可 以 同时 
(并 行 ) 地 执行 并 行程 序 。 

编写 多 线程 程序 的 方法 有 很 多 ,其 中 一 些 方法 支持 复杂 的 线程 通信 。OpenMP 提供 
了 一 种 结构 化 的 多 线程 编程 方法 ,该 方法 更 简便 ,同时 可 以 最 大 程度 地 帮助 程序 员 避 免 潜 
在 的 错误 。 在 这 种 编程 方法 中 ,首先 就 像 串 行程 序 那 样 , 以 单线 程 方式 执行 程序 ,该 线程 
被 默认 为 初始 线程 。 当 初始 线程 遇 到 OpenMP 的 并 行 结 构 语 句 时 ,会 创建 一 个 线程 组 
(就 是 fork 动作 ) ,而 自己 作为 该 线程 组 的 主线 程 (Master)。 主 线程 与 线程 组 中 的 从 线程 
(Slaver) 根 据 程序 的 结构 动态 地 分 配 任务 。 在 退出 并 行 结构 时 ,只 有 原始 线程 ( 即 主线 
程 ) 继 续 执行 ,其 他 所 有 的 从 线程 结束 执行 (就 是 join 动作 )。 

使 用 OpenMP 进行 并 行 编程 ,程序 开发 者 能 够 设计 出 高 质量 的 并 行 代码 ,同时 有 机 
会 对 并 行 算法 进行 创新 。 它 提供 了 用 来 标记 OpenMP 程序 并 行 区 域 的 语句 (代码 中 用 并 
行 结构 标记 的 部 分 称 为 并 行 区域 )。 同 时 , 它 还 提供 了 控制 这 些 并 行 语句 如 何 并 行 执行 的 
附加 信息 。 

OpenMP 降低 了 并 行 编程 的 难度 与 复杂 度 , 程 序 员 可 以 把 更 多 的 精力 投入 到 并 行 算 
法 本 身 , 而 非 其 具体 的 实现 细节 。 对 基于 数据 分 集 (fork-join) 的 多 线程 程序 设计 来 说 ， 
OpenMP 是 一 个 很 好 的 选择 。 另 外 .OpenMP 还 提供 了 更 强 的 灵活 性 ,易于 适应 不 同 的 
并 行 系统 配置 。 并 行 粒度 、 负 载 均 衡 等 是 传统 多 线程 程序 设计 中 需要 解决 的 难题 ， 
OpenMP 库 从 程序 员 手 中 接管 了 上 述 部 分 工作 。 
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读者 可 从 OpenMP 的 官方 网 站 http://www. openmp. org 上 查询 它 的 最 新 发 展 和 相 
关 资 料 。 


3.2.2 第 一 个 OpenMP 程序 


1. Windows 下 支持 OpenMP 的 编译 器 


Microsoft Visual Studio 2008 完全 支持 OpenMP 2.0 标准 ,无 须 额外 安装 其 他 软件 。 
通过 新 的 编译 选项 /openmp 支持 OpenMP 程序 的 编译 ,编译 器 会 自动 将 用 户 编 写 的 
OpenMP 程序 与 Windows 下 实现 的 OpenMP JE vcomp. dll 连接 在 一 起 。OpenMP 程序 
在 运行 时 ,会 自动 寻找 vcomp. dll。 下 面 ,使 用 Visual Studio 2008 来 新 建 一 个 OpenMP 
mH OpenMP, 

启动 Visual Studio 2008 ,新 建 一 个 Win32 控制 台 应 用 程序 ,并 命名 为 OpenMP, At 
图 3-25 所 示 。 


新 建 项 目 


[mr Framework 35 ME 


TARH): BED: 
g Vind ce | Visual Studio 已 安装 的 模板 
K B 


quiso 控制 台 应 用 程序 国 Win32 项 目 
我 的 模板 
rren 


OpenMP] 
C:\Documents and SettingslyyMy Documents\Visual Studio 2008\Projects ~| [浏览 @... ] 
解决 方案 名 称 U: 0penMF 对 ] 创 津 解决 方案 的 目录 QD. 


图 3-25 新 建 项 目 


单 击 “ 确 定 ” 按 钮 ,在 详细 设置 向 导 里 保持 默认 的 设置 即 可 ,然后 单 击 “完成 按钮 。 从 
而 创建 了 一 个 控制 台 项 目 , 如 图 3-26 Pra. 

用 鼠标 右键 单 击 项 目 , 在 弹出 的 菜单 中 选择 * 属 性 ”。 在 弹出 的 对 话 框 中 找到 “配置 ”~ 
C/C++ 一 “语言 >“OpenMP 支持 ”>“ 是 (/OpenMP)”, 单 击 “ 确 定 ” 按 钮 ,实现 对 项 目的 
OpenMP 支持 ,如 图 3-27 所 示 。 
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图 3-26 创建 控制 台 项 目 
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以 上 是 OpenMP 环境 配置 的 一 般 方式 。 在 实际 的 系统 环境 配置 和 编程 软件 安装 过 
程 中 ,可 能 存在 其 他 运行 中 的 障碍 ,请 读者 细心 查阅 其 他 相关 资料 。 


2. Linux 下 支持 OpenMP 的 编译 器 


下 面 有 关 GCC 简介 与 GCC 的 基本 用 法 参考 自 文献 [6]-[7], 有 关 使 用 GCC 编译 
OpenMP 程序 参考 自 文献 [8] 。 

1) GCC 简介 

GCCCGNU Compiler Collection, GNU 编译 器 套装 ) ,是 一 套 由 GNU 开发 的 编程 语 
TEN. CEDE GPL.LGPL 许可 证 所 发 行 的 自由 软件 ,也 是 GNU 计划 的 关键 部 分 ， 
亦 是 自由 的 类 UNIX 及 苹果 计算 机 Mac OS X 操作 系统 的 标准 编译 器 。 

GCC 原名 为 GNU C 语言 编译 器 ,这 是 因为 它 原来 只 能 处 理 C 语言 。 随 后 ,GCC 很 
快 得 到 扩展 ,可 以 处 理 C++ 语言 。 之 后 ,发 展 到 可 以 处 理 Fortran, Pascal, Objective-C, 
Java, Ada 及 其 他 语言 。 

目前 ,GCC 编译 器 的 最 新 稳定 版 本 是 于 2010 年 12 H 16 日 发 布 的 4.5.2 版 本 。 

2) GCC 的 基本 用 法 

在 使 用 GCC 编译 器 的 时 候 , 用 户 必须 给 出 一 系列 必要 的 调用 参数 和 文件 名 称 。GCC 
编译 器 的 编译 选项 大 约 有 100 多 个 ,其 中 的 多 数 参 数 平时 根本 不 会 被 使 用 。 这 里 只 介绍 
其 中 最 基本 、 最 常用 的 参数 。 

GCC 遵循 的 部 分 约定 规则 如 下 : 

* 以 .ec 为 后 缀 的 文件 是 用 C 语言 编写 的 源 代码 文件 ; 

* 以 .a 为 后 级 的 文件 是 由 目标 文件 构成 的 档案 库 文件 ; 

。 EJ. C. cc 或 .cxx 为 后 级 的 文件 是 用 C++ 语言 编写 的 源 代 码 文件 ; 

* 以 .hh 为 后 级 的 文件 是 程序 中 所 包含 的 头 文 件 ; 

。 以 .i 为 后 级 的 文件 是 已 经 预 处 理 过 的 C 源 代码 文件 ; 

。 以 .并 为 后 级 的 文件 是 已 经 预 处 理 过 的 C++ 源 代码 文件 ; 

* 以 . m 为 后 缀 的 文件 是 Objective-C 源 代码 文件 ; 

* 以 . o 为 后 缀 的 文件 是 编译 后 的 目标 文件 ; 

* 以 . s 为 后 缀 的 文件 是 汇编 语言 源 代码 文件 ; 

。 以 . S 为 后 缀 的 文件 是 经 过 预 编译 的 汇编 语言 源 代码 文件 。 

GCC 编译 的 基本 格式 如 下 : 


gcc [options] [filenames] 


其 中 ,options 就 是 编译 器 的 编译 选项 ,filenames 给 出 相关 的 文件 名 称 。 
-c, 只 编译 而 不 连接 成 为 可 执行 文件 ,编译 器 只 是 将 输入 的 . c 等 源 代码 文件 生成 以 
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.0 为 后 缀 的 目标 文件 ,通常 用 于 编译 不 包含 主 程序 的 子 程序 文件 。 

-o output_filename, 确 定 输出 文件 的 名 称 为 output_filename。 同 时 ,该 名 称 不 能 和 
源 文件 同名 。 如 果 不 给 出 这 个 选项 ,gcc 就 给 出 预 设 的 可 执行 文件 a. out, 

-g, 生 成 调试 工具 (GNU 的 gdb) 必 要 的 符号 信息 ,要 想 对 源 代 码 进行 调试 ,就 必须 使 
用 该 选项 。 

-0 〇 ,对 程序 进行 优化 编译 与 连接 。 使 用 该 选项 ,会 在 编译 与 连接 的 过 程 中 对 整个 源 
代码 进行 优化 处 理 , 这 样 生成 的 可 执行 文件 的 执行 效率 可 以 提高 。 不 过 ,编译 与 连接 的 速 
度 会 相应 慢 一 些 。 

-O02, 比 -O 更 强 的 优化 编译 与 连接 。 当 然 , 整 个 编译 与 连接 的 过 程 会 更 慢 。 

-Idirname, 将 dirname 指定 的 目录 加 入 程序 的 头 文件 目录 列表 中 ,这 是 一 个 在 预 编译 
过 程 中 使 用 的 选项 。C 程序 中 的 头 文件 包含 如 下 两 种 情况 : 


#include <myinc.h> 
或 
# include "myinc. h" 


其 中 ,第 一 种 情况 使 用 尖 括 号 二 二 ,第 二 种 情况 使 用 双 引 号 ""。 前 者 , 预 处 理 程 序 
将 在 系统 预 设 的 包含 文件 目录 (如 /usr/include) 中 寻找 相应 的 头 文件 ; 后 者 , 预 处 理 程序 
会 在 目标 文件 的 文件 夹 内 搜索 相应 的 头 文件 。 

3) 用 GCC 编译 OpenMP 程序 

目前 ,能 稳定 支持 OpenMP 编译 的 GCC 版 本 是 4.2.4 版 。 当 然 , 新 的 版 本 也 能 很 好 
地 支持 OpenMP。 使 用 GCC 编译 器 来 编译 带 有 OpenMP 编译 指导 语句 的 C/C++ 程序 ， 
只 需 加 上 -fopenmp 选项 即 可 ,编译 器 会 依照 OpenMP API v2. 5 的 规范 来 编译 OpenMP 
程序 。 当 使 用 -fopenmp 选项 时 ,会 默认 包含 -pthread 选项 。 因 此 , 想 使 用 -fopenmp 选项 
进行 编译 的 OpenMP 程序 ,必须 同时 支持 使 用 -pthread 选项 进行 编译 。 


3. 第 一 个 OpenMP 程序 
下 面 ,以 Hello World 为 例 ,给 出 OpenMP 程序 的 一 个 简单 框架 , 以便 读 者 对 
OpenMP 程序 有 一 个 初步 的 认识 。 


# include"omp. h" /* 包含 头 文件 omp.hx / 
# include« stdio. h> 
# define NUM_THREADS 4 


int main(int argc, char * argv[]) 
{ 
int nthreads, tid; 


m 
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omp set num threads(NUM THREADS); /* 为 后 面 的 并 行 区 设置 线程 数目 * / 
# pragma omp parallel /* 编译 指导 语句 ,创建 一 个 并 行 区 * / 
{ 
tid = omp get thread num(); /* 得 到 当前 线程 的 标识 号 (线程 号 ) * / 
printf ("Hello World from OMP thread % d\n", tid); 
if(tid--0) 
{ 
nthreads = omp get num threads(); 
/* 得 到 并 行 区 中 总 的 线程 数目 * / 
printf("Number of threads % din", nthreads); 


) 
) 
return 0; 

) 

下 面 , 分 析 一 下 该 OpenMP 程序 。 

(D 首先 ,C 语言 的 OpenMP 程序 需要 包含 OpenMP 实现 的 头 文件 “omp. h”。 

© 定义 相关 变量 ,nthreads 表示 线程 数 ,tid 表示 当前 线程 的 标识 号 。 

© 调用 OpenMP Hiz £119 PE PR Comp. set. num. threads O ,为 后 面 的 并 行 区 设置 线 
程 数 目 。 

(D 使 用 OpenMP 的 编译 指导 语句 并 pragma omp parallel, 创 建 一 个 并 行 区 。 在 该 并 
行 区 中 ,多 个 线程 共同 执行 。 

C) 调用 OpenMP 的 运行 时 库 函 数 omp. get. thread num O ,得 到 当前 线程 的 标识 号 
( 即 线程 号 )。 

(6) 调用 OpenMP 的 运行 时 库 函 数 omp_get_num_threads() ,得 到 该 并 行 区 中 总 的 线 
程 数目 。 
CD 最 后 由 0 号 线程 打印 该 并 行 区 中 总 的 线程 数目 。 
下 面 是 在 Linux 环境 下 ,编译 、 连 接 并 运行 这 个 简单 的 OpenMP 程序 。 
。 在 当前 文件 夹 下 建立 一 个 test. c 文件 ,并 编写 上 述 代 码 。 
。 使 用 gcc 编译 器 、-fopenmp 编译 选项 编译 并 连接 该 文件 。gcc -fopenmp -o test 

test, c, 生 成 可 执行 程序 test. 

。 运行 可 执行 文件 . /test。 
运行 结果 如 下 所 示 : 
Hello World from OMP thread © 
Nunber of threads 4 
Hello World from OMP thread 2 


Hello World from OMP thread 1 
Hello World from OMP thread 3 


3.2.3 编译 指导 语句 
顾名思义 ,编译 指导 语句 就 是 在 编译 过 程 中 能 够 被 编译 器 识别 的 特定 注释 语句 。 这 
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些 特定 的 注释 语句 代表 了 OpenMP 的 语义 。 如 果 用 户 所 使 用 的 编译 器 不 能 识别 
OpenMP 的 编译 语句 , 则 这 些 特 定 的 注释 语句 将 会 被 当成 普通 的 注释 而 被 忽略 。 因 此 ， 
如 果 仅 仅 使 用 编译 指导 语句 , 则 编写 的 OpenMP 程序 既 支持 普通 编译 器 ,又 支持 
OpenMP 的 编译 器 。 这 样 做 的 好 处 就 是 ,OpenMP 程序 既 可 被 看 作 并 行程 序 又 可 被 看 作 
串 行 程序 ,或 者 在 保持 串 行程 序 部 分 不 变 的 情况 下 ,用户 能 够 方便 地 将 串 行 程序 改写 成 并 
行程 序 ,在 很 大 程度 上 方便 了 编程 人 员 。 

下 面 是 OpenMP 并 行 指导 语句 的 基本 格式 : 

# pragma omp < 编译 指导 关键 词 > [ 子 句 [ [，] 子 句 ] …] 换行 符 

* £ pragma omp 是 编译 指导 关键 词 的 前 级 。 所 有 的 OpenMP 并 行 指导 语句 都 需要 
这 样 的 前 级 ,属于 固定 部 分 。 
去 编译 指导 关键 词 二 是 OpenMP 的 编译 指导 关键 词 。 在 前 级 和 子 句 之 间 必 须 有 
一 个 正确 的 编译 指导 关键 词 来 决定 当前 编译 指导 语句 的 作用 ,属于 必 备 的 可 变 部 
分 。OpenMP 合法 的 编译 指导 关键 词 包括 parallel, for, sections, single, parallel 


for, parallel sections, task, master, critical, barrier, taskwait, atomic, flush, 


ordered, threadprivate 等 。 

[ 子 句 ] 主 要 负责 并 行 执行 部 分 中 变量 的 共享 与 复制 等 。 在 没有 其 他 约束 的 条 件 
下 ,多 个 子 句 可 以 无 序 排列 ,也 可 以 任意 选择 。 由 于 编译 器 有 自己 的 默认 属性 ,所 
以 该 部 分 也 可 以 没有 ,属于 可 选 的 部 分 。OpenMP 合法 的 子 句 有 default, shared, 
private, \firstprivate lastprivate, reduction, copyin,copyprivate, 


换行 符 表明 这 条 指导 语句 的 终止 。 
1. 并 行 域 结构 


parallel 语句 
parallel 语句 会 创建 一 个 线程 组 来 并 行 执行 程序 。 其 格式 为 : 


# pragma omp parallel [ 子 句 [[，] 子 句 ] ...] 换行 符 
结构 化 块 


支持 的 子 句 包括 : 


if( 标 量 表 达 式 ) 
num_threads( 整 型 表达 式 ) 
default( 共 享 | 空 ) 
private( 变 量 列 表 ) 
firstprivate( 变 量 列 表 ) 
shared( 变 量 列 表 ) 
copyin( 变 量 列表 ) 
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reduction( 归 约 操作 类 型 : 变量 列表 ) 


注意 , 当 一 个 线程 运行 到 parallel 指令 时 , 它 会 创建 一 个 线程 组 并 成 为 该 组 的 主线 程 
(Master 。 主 线程 也 是 该 组 线程 中 的 一 员 ,其 线程 号 为 0。 当 并 行 区 开始 时 ,程序 代码 将 
被 复制 ,创建 的 线程 组 中 的 每 个 线程 都 会 执行 。 


2. 共享 任务 结构 


共享 任务 结构 将 它 所 包含 的 任务 分 配给 线程 组 中 各 个 线程 执行 。 一 个 共享 任务 结构 
必须 动态 地 封装 在 一 个 并 行 区 中 ,以 便 该 指导 语句 可 以 被 并 行 执行 。 共 享 任务 结构 必须 
出 现在 一 个 线程 组 中 或 者 根本 不 在 该 线程 组 中 出 现 。 连 续 的 共享 任务 结构 必须 在 线程 组 
的 所 有 线程 中 按 相 同 次 序 出 现 。 

1) for 循环 结构 语句 

for 循环 结构 语句 将 循环 语句 中 的 重复 部 分 分 配给 各 个 线程 并 行 执行 。 其 格式 为 : 


# pragma omp for [ 子 句 [[,] 子 句 ] ... ] 换行 符 
结构 化 块 


支持 的 子 句 : 


private( 变 量 列表 ) 
firstprivate( 变 量 列 表 ) 
lastprivate( 变 量 列表 ) 
reduction(operator: 变量 列表 ) 
schedule(kind[, chunk size]) 
collapse(n) 

ordered 

nowait 


在 这 里 , 暂 不 考虑 各 子 句 的 含义 ,其 具体 的 阐述 参考 下 一 小 节 。 下 面 看 一 个 有 关 for 
编译 指导 语句 的 实例 ,了 解 一 下 for 编译 指导 语句 的 具体 用 法 。 


# include < stdio.h> 
# include < stdlib.h» 
# include < omp. h> 


int main() 
t 
int i, n-9; 
omp set num threads(4); 
# pragma omp parallel default(none) shared(n) private(i) /* 创建 并 行 区 * / 
{ 
*pragmaonpfor — /* for 编译 指导 语句 ,每 个 线程 分 别 执行 下 面 for 循环 部 分 * / 


a 


— 6 
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for (i=0; i<n; i++) 
printf("Thread % d executes loop iteration % d\n", 
omp_get_thread_num(), i); 
} /* 并 行 区 结束 * / 


return(0); 


} 
运行 结果 如 下 所 示 : 


Thread 8 executes loop iteration 0 
Thread 0 executes loop iteration 1 
Thread 6 executes loop iteration 2 
Thread 2 executes loop iteration 6 
Thread 2 executes loop iteration 7 
Thread 2 executes loop iteration 8 
Thread 1 executes loop iteration 3 
Thread 1 executes loop iteration 4 
Thread 1 executes loop iteration 5 


2) sections 编译 指导 语句 

sections 编译 指导 语句 是 非 迭 代 的 共享 任务 结构 , 它 将 其 包含 的 任务 分 配给 线程 组 
PEDRE, WEE sections 编译 指导 语句 中 的 不 同 的 section 指导 语句 ,由 线程 组 中 
不 同 的 线程 执行 。sections 语句 的 格式 为 : 


# pragma omp sections [ 子 句 [[,] 子 句 ] …] 换行 符 


[ # pragma omp section 换行 ] 
结构 化 块 
[ # pragma omp section 换行 ] 
结构 化 块 

) 


支持 的 子 句 : 


private( 变 量 列表 ) 
firstprivate( 变 量 列 表 ) 
lastprivate( 变 量 列表 ) 
reduction(operator: 变量 列表 ) 
nowait 


section 指导 语句 的 用 法 如 下 : 


# pragma omp parallel 
{ 
# pragma omp sections 
{ 
# pragma omp section 
(void) funcA(); 
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# pragma omp section 
(void) funcB(); 
H /* sections 块 结束 * / 


i /* 并 行 区 结束 * / 


3) single 编译 指导 语句 
single 编译 指导 语句 将 其 包含 的 代码 交 由 线程 组 中 的 一 个 线程 执行 。 对 于 必须 各 线 
程 分 别 执行 的 代码 (同时 执行 会 造成 计算 结果 错误 ) ,该 指导 语句 非常 有 用 。 有 具体 的 格式 


如 下 : 


# pragma omp single [ 子 句 [[,] 子 句 ] …] 换行 符 
结构 化 模块 


支持 的 子 句 : 


private( 变 量 列表 ) 
firstprivate( 变 量 列表 ) 
copyprivate( 变 量 列表 ) 


nowait 
除非 使 用 了 nowait 子 句 ,否则 线程 组 中 没有 执行 single 语句 的 线程 ,将 一 直 等 到 


single 指导 语句 包含 的 代码 块 执行 结束 。single 编译 指导 语句 的 用 法 如 下 : 
# pragma omp parallel shared(a, b) private(i) 
t 
# pragma omp single /* 只 有 最 先 到 达 的 那 一 个 线程 执行 其 包含 的 代码 * / 
{ 
a-10; 
printf("Single construct executed by thread % d\n", 
omp get thread num()); 
) 
# pragma omp for 
for (i=0; i<n; i++) 
b[i] =a; 


printf("After the parallel region:\n"); 


for (i=0; i<n; i++) 
printf("b[ %d] = %d\n", i, b[i]); 


3. 同步 结构 


在 操作 系统 的 相关 课程 中 ,学 习 过 同步 、 临 界 区 使 用 等 知识 。 在 多 线程 编程 过 程 中 ， 


也 会 碰 到 线程 同步 ,临界 区 使 用 等 情况 。 


Q 一 一 
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假设 两 个 线程 分 别 位 于 共享 存储 的 不 同 处 理 器 上 ,它们 需要 分 别 对 共享 存储 中 的 某 
个 变量 x 进行 加 1 操作 ,该 过 程 可 能 的 执行 顺序 为 : 

。 线程 0 将 变量 x 的 值 存 人 寄存 器 AS 

。 线程 1 将 变量 x 的 值 存 人 寄存 器 As 

。 线程 0 将 寄存 器 A 中 变量 x 的 值 加 1; 
线程 1 将 寄存 器 A 中 变量 x 的 值 加 1; 
线程 0 将 寄存 器 A 的 值 写 回 到 变量 x 中， 
线程 1 将 寄存 器 A 的 值 写 回 到 变量 x 中 。 

最 终 ,变量 x 的 值 为 1 而 不 是 预期 的 2。 为 了 避免 这 类 错误 的 产生 ,对 变量 x 的 修改 
操作 必须 在 两 个 进程 之 间 进 行 同 步 。 

OpenMP 提供 了 多 种 同步 结构 负责 执行 过 程 中 各 个 线程 的 同步 。 

1) barrier 编译 指导 语句 

barrier 编译 指导 语句 实现 一 个 线程 组 中 所 有 线程 的 同步 。 先 到 达 barrier 指导 语句 
的 线程 将 会 被 阻塞 ,直到 所 有 其 他 线程 都 执行 到 该 指导 语句 。 其 具体 格式 如 下 : 


# pragma omp barrier 换行 符 
下 面 给 出 一 个 有 关 barrier 编译 指导 语句 的 实例 ,了 解 一 下 其 具体 用 法 。 


# include < stdio.h» 
# include < stdlib.h» 
# include <time.h> 

# include < string. h> 
# include < omp. h> 


void print_time(int TID, char * comment); 
int main() 
{ int TID; 
int i, n= 10; 
int a[n], b[n], ref[n]; 
(void) omp_set_num_threads(4); 
# pragma omp parallel private(TID) 
{ 
TID = omp get thread nun(); 
if ( TID < omp get. num threads()/2 ) 
systen("sleep 3"); /* 当前 进程 睡眠 3 秒 钟 */ 
(void) print time(TID, "before"); /x 调用 print time 函数 * / 


# pragma omp barrier 
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(void) print time(TID, "after "); 


for (i70; i<n; i++) 
{ 
b[i]-2* (i*1); 
ref[i]-i * b[i]; 


# pragma omp parallel private(i) shared(n, a, b) 
{ 
# pragma omp for schedule(dynamic, 1) nowait 
for (i=0; i<n; i++) 


ali] = i; 
# pragma omp barrier /* 对 线程 组 中 的 所 有 线程 进行 同步 * / 


* pragma omp for schedule(dynamic, 1) nowait 
for (i=0; i€n; i++) 


a[i]*-b[i]; 


printf("After the parallel regionin"); 
for (i=0; i<n; i++) 
printf(" a[ %3d] = %6d ref[ %3d]= %6d\n", i, a[i], i, ref[i]); 


return(0); 


void print time(int TID, char * comment) 
t 
time t tp; 
char buffer[26], mytime[9]; 
(void) time(&tp); 
strcpy(Sbuffer[0], ctime(&tp)); 
strncpy(&mytime[0], &buffer[11], 8); 
mytime[8] = '\0'; 
printf("Thread %d *s barrier at % s\n", TID, comment, &mytime[0]); 
return; 


) 
运行 结果 如 下 所 示 : 


a 
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Thread 3 before barrier at 13:08:43 
Thread 2 before barrier at 13:08:43 
Thread 8 before barrier at 13:08:46 
Thread 1 before barrier at 13:08:46 
Thread 1 after barrier at 13:08:46 
Thread 3 after barrier at 13:08:46 
Thread 2 after barrier at 13:08:46 
Thread 0 after barrier at 13:08:46 
After the parallel region 


a[ 9] = 2 ref[ 9] = 2 
a[ 1] = 5 ref[ 1] = 5 
al 2] = 8 ref[ 2] = 8 
al 3] = 1 ref[ 3] = n 
a[ 4] = 14 ref[ 4] = 14 
a[ 5] = 17 ref[ 5] = 17 
al 6]=  20ref[ 6]- 20 
al 7]*  23ref[ 7]= 23 
al 8]- 26ref[ 8]- 26 
a[ 9] = 29 ref[ 9] = — 29 


2) ordered 编译 指导 语句 
ordered 编译 指导 语句 包含 在 循环 内 ,将 被 按 序 串 行 执行 。 其 格式 如 下 : 


# pragma omp ordered 换行 符 
下 面 给 出 一 个 使 用 order 编译 指导 语句 的 实例 : 


int i, TID, n= 9; 
int a[n]; 
omp set num threads(4); 
for (i=0; i<n; i++) 
ali] =i; 
# pragma omp parallel for default(none) ordered schedule(runtime) \ 
private(i, TID) shared(n, a) 
for (i=0; i<n; i++) 
{ 
TID = omp get thread num(); 
printf("Thread * d updates a[ $ d] Wn", TID, i); 


ali] += i; 
# pragma omp ordered /* 下 面 的 打印 语句 将 被 按 序 串 行 执行 * / 
[printf("Thread % d prints value of a[ %d] =%d\n", TID, i, a[i]);} 


) 
3) critical 编译 指导 语句 
critical 编译 指导 语句 指定 代码 段 在 同一 时 刻 只 能 由 一 个 线程 执行 。 其 具体 的 格式 
如 下 : 
# pragma omp critical 换行 符 
当 critical 包含 的 代码 段 正 被 某 个 线程 执行 时 ,如 果 另 一 个 线程 也 执行 了 critical 指 


导语 句 , 则 它 将 被 阻塞 直到 临界 区 中 的 线程 退出 。 
下 面 给 出 一 个 使 用 critical 编译 指导 语句 的 实例 : 
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# include < stdio.h» 
# include < stdlib. h> 
# include < omp. h> 

# define SUM_INIT 0 


int main() 
{ 
int i, n-25; 
int sum, TID, a[n]; 
int ref = SUM INIT + (n- 1) * n/2; 
int sumLocal; 


(void) omp set num threads(3); 


for (i=0; i<n; i++) 
ali] = i; 


# pragma omp parallel 
{ 
# pragma omp single 
printf("Number of threads is % d\n", omp get num threads()); 


sum = SUM INIT; 

printf("Value of sum prior to parallel region: % d\n", sum); 

# pragma omp parallel default(none) shared(n, a, sum) V 
private(TID, sumLocal) 


TID- omp get thread num(); 
sumLocal = 0; 
# pragma omp for 

for (i=0; i<n; i++) 

sumLocal += a[i]; 

# pragma omp critical (update sum) 
/ * critical 编译 指导 语句 包含 的 代码 段 在 同一 时 刻 只 能 由 一 个 线程 执行 * / 
{ 

sum += sumLocal; 

printf("TID -5 d: sumLocal =% d sum =% d\n", TID, sumLocal, sum); 
) 


printf("Value of sum after parallel region: % d\n", sum); 
printf("Check results: sum -* d (should be %d)\n", sum, ref); 


a 
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return(0); 


i 
运行 结果 如 下 所 示 : 


Number of threads is 3 
Value of sum prior to parallel region: 6 
TID-0: sumLocal = 36 sum = 36 

TID=1: sumLocal = 117 sum = 153 

TID=2: sumLocal = 147 sum = 300 

Value of sum after parallel region: 300 
Check results: sum - 300 (should be 300) 


4) atomic 编译 指导 语句 
atomic 编译 指导 语句 指定 特定 的 存储 单元 将 被 原子 地 更 新 ,不 允许 多 个 线程 同时 执 


行 更 新 操作 。 其 格式 如 下 : 


# pragma omp atomic 换行 符 
具体 用 法 如 下 : 


int ic, i, n7 7; 
ic-20; 
# pragma omp parallel for shared(ic, n) private(i) 
for (i=0; ien; i++) 
{ 
# pragma omp atomic /* ic 的 修改 是 原子 性 的 * / 
ictz-1; 
i 
printf("Counter =% d\n", ic); 


5) master 编译 指导 语句 
master 编译 指导 语句 指定 代码 段 将 由 主线 程 执行 ,该 线程 组 中 的 其 他 线程 将 忽略 该 


代码 段 。 其 格式 如 下 : 


# pragma omp master 换行 符 
其 具体 用 法 如 下 : 


# pragma omp parallel shared(a, b) private(i) 
t 
# pragma omp master /* 只 能 由 master 线程 执行 所 包含 的 代码 / 
t 
a-10; 
printf("Master construct is executed by thread * d\n", 
omp get thread num()); 
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# pragma omp barrier 


# pragma omp for 
for (i=0; i<n; i++) 
b[i] =a; 


printf("After the parallel region:\n"); 
for (i=0; i<n; i++) 
printf("b[ %d] =% d\n", i, b[i]); 


6) threadprivate 编译 指导 语句 
threadprivate 编译 指导 语句 ,将 一 个 全 局 文件 作用 域 变 量 的 属性 变 为 在 并 行 区 为 每 


个 线程 所 私有 ,其 格式 如 下 : 
* pragma omp threadprivate (list) 换行 符 
其 具体 用 法 如 下 : 


# include < stdio.h> 
# include < stdlib. h> 
# include < omp. h> 
#define TRUE 1 
# define FALSE 0 
int calculate_sum( int length); 
int * pglobal; 
# pragma omp threadprivate(pglobal) 
/* 将 全 局 文件 作用 域 变量 pglobal 的 属性 变 为 在 并 行 区 内 为 每 个 线程 所 私有 * / 
int main() 
t 
int i, j, sum, TID, n= 5; 
int length[n], check[n]; 
omp set num threads(3); 
for (i20; in; i++) 
( 
length[i] * 10 * (i* 1); 
check[ i] = length[ i] * (length[i]-* 1)/2; 
} 
# pragma omp parallel for shared(n, length, check) private(TID, i, j, sum) 
for (i=0; i<n; i++) 
( 
TID- omp get thread num(); 
if ( (pglobal- (int * ) malloc(length[i] * sizeof(int))) != NULL ) ( 
for (j= sum= 0; j«length[i]; j++) 
pglobal[j] - j * 1; 


a 
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sum- calculate sum(length[i]); 
printf("TID %d: value of sum for i=%d is *8d (check - 8d) Wn", 
TID, i, sum, check[i]); 


free(pglobal); 


) eise ( 
printf("TID % d: fatal error in malloc for length[ % d] =% d\n", 
TID, i, length[i]); 
) 
} 
return(0); 
i 
int calculate sum(int length) 
1 
int sum - 0; 
int j; 
for (j=0; j<length; j++) 
sum += pglobal[j]; 


return(sum); 

} 

运行 结果 如 下 所 示 : 

TID 0: value of sum for i = 0 is 55 (check = 55) 
TID 6: value of sum for i = 1 is 210 (check = 210) 
TID 2: value of sum for i = 4 is 1275 (check = 1275) 
TID 1: value of sum for i = 2 is 465 (check = 465) 
TIO 1: value of sum for i = 3 is 820 (check = 820) 


3.2.4 数据 共享 属性 子 句 


除了 编译 指导 语句 以 外 , 另 一 个 重点 是 数据 属性 。 要 学 好 OpenMP 编程 ,就 必须 理 
解 和 会 使 用 数据 属性 。 由 于 OpenMP 建立 在 共享 存储 编程 模型 之 上 ,所 以 绝 大 部 分 变量 
默认 为 共享 。 

全 局 变量 包括 文件 作用 域 变量 和 静态 变量 .私有 变量 包括 循环 计数 (索引 ) 变 量 和 并 
行 区 调用 的 子 程序 中 的 堆栈 变量 。 

OpenMP 的 数据 属性 子 句 包括 private, firstprivate, lastprivate, shared, default, 
reduction 和 copyin 等 。 它 与 编译 指导 语句 parallel for 和 section 相 结合 ,用 来 控制 变量 
的 作用 范围 。 


1. default 子 句 


default 子 句 让 用 户 自行 定义 在 一 个 并 行 区 的 静态 范围 内 变量 的 默认 作用 范围 。 其 


a 
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格式 如 下 : 


#default(shared | private | none) 


2. shared 子 句 
shared 子 句 表示 它 所 列 出 的 变量 被 线程 组 中 所 有 线程 共享 。 其 具体 格式 如 下 : 


shared( list) 
共享 变量 在 存储 器 中 只 有 一 份 拷贝 ,所 有 的 线程 都 能 对 它 进行 读 写 访问 。 对 该 变量 
访问 的 正确 性 将 由 程序 员 来 保证 。 具 体 用 法 如 下 : 
# pragma omp parallel for shared(a) /* 变量 a 被 该 并 行 区 中 的 所 有 线程 共享 * / 
for (i=0; i«n; i++) 
{ 
ali] += i; 


} 


3. private F4 
private 子 句 表示 它 所 列 出 的 变量 对 于 每 个 线程 来 说 都 是 私有 的 。 其 具体 格式 如 下 : 


private(list) 


具体 用 法 如 下 : 
# pragma omp parallel for private(i, a) /* 在 该 并 行 区 中 ,变量 i 与 a 为 每 个 线程 和 有 * / 


for (i20; i<n; i++) 
{ 
a=i+1li 
printf("Thread % d has a value of a= %d for i=% d\n", 
omp_get_thread_num(), a, i); 
} 


4. lastprivate 子 句 


lastprivate 子 句 是 private 子 句 的 扩展 . 它 不 仅 包含 了 private 子 句 的 功能 ,而 且 还 要 
将 循环 的 最 后 一 次 迭代 之 后 变量 的 值 复 制 给 原始 的 变量 。 其 具体 格式 如 下 : 


lastprivate(list) 


其 具体 用 法 如 下 : 


# pragma omp parallel for private(i) lastprivate(a) /* 变量 a 具有 lastprivate 属性 * / 


a 


As 并 行 计 算 机 及 编程 基础 
for(i-0; i«n; i++) 
{ 
a-itl; 
printf("Thread $% d has a value of a=% d for i=% d\n", 
omp get thread num(), a, i); 
} 
printf("Value of a after parallel for: a - $ d\n", a); 
/* 此 处 a 的 值 为 上 面 循 环 的 最 后 一 次 迭代 之 后 a 的 值 * / 


5. firstprivate 子 句 


firstprivate 子 句 也 是 private 子 句 的 扩展 , 它 不 仅 包含 了 private 子 句 的 功能 ,而 且 当 
执行 到 该 并 行 结 构 时 用 对 应 变量 的 原始 值 初始 化 该 变量 。 其 具体 格式 如 下 : 


firstprivate(list) 
下 面 给 出 一 个 有 关 firstprivate 子 句 使 用 的 实例 : 


f include < stdio.h> 
# include < stdlib.h> 
* include < omp. h> 

f define TRUE 1 

# define FALSE 0 


int main() 

{ 
int *a; 
int n= 2, nthreads, vlen, indx, offset- 4, i, TID; 
int failed; 


omp set num threads(3); 


indx- offset; 
# pragma omp parallel firstprivate(indx) shared(a, n, nthreads, failed) 
/* 变量 indx 具有 firstprivate 属性 * / 
/* 该 并 行 区 中 indx 的 初始 值 为 该 指导 语句 之 前 indx 的 值 > / 
{ 
# pragma omp single 
{ 
nthreads = omp get num threads(); 
vlen = indx + n * nthreads; 
if ( (a7 (int * ) malloc(vlenx sizeof(int))) == NULL ) 
failed - TRUE; 


else 
failed = FALSE; 


if ( failed == TRUE ) ( 


printf("Fatal error: memory allocation for a failed vlen- 


return( - 1); 


) 

else 

{ 
printf("Diagnostics: Vn"); 
printf("nthreads =% d\n", nthreads); 
printf("indx =%d\n", indx); 
printf("n 75d", n); 
printf("vlen 75dW", vlen); 

) 

for(i=0; i<vlen; i++) a[i]- - i-1; 


printf("Length of segment per thread is % d\n", n); 

printf("Offset for vector a is % d\n", indx); 

# pragma omp parallel default(none) firstprivate(indx) V 
private(i, TID) shared(n, a) 


TID- omp get thread num(); 

indx += n* TID; 

for(i= indx; i< indx ^n; i++) 
a[li] = TID* 1; 


printf("After the parallel region:Wn"); 
for (i20; i«vlen; i++) 
printf("a[ &d] =% d\n", i, a[i]); 


free(a); 


return(0); 


) 
运行 结果 如 下 所 示 : 
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% dn", vlen); 
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Diagnostics: 


nthreads = 3 
indx =4 
n =2 
vlen = 19 


Length of segment per thread is 2 
Offset for vector a is 4 

After the parallel region: 

-1 


v 
T 
“nunn 


-2 
-3 
-4 


6. reduction F4 


reduction 子 句 使 用 指定 的 操作 对 其 列表 中 出 现 的 变量 进行 归 约 操作 。 最 初 ,线程 组 
中 所 有 线程 都 将 保留 该 列表 中 每 个 变量 的 私有 备份 。 在 该 结构 结束 时 ,根据 指定 的 操作 
对 所 有 线程 中 的 相应 变量 进行 归 约 操作 ,并 更 新 该 变量 的 全 局 值 。 其 格式 如 下 ; 


reduction(operator :list) 
下 面 给 出 一 个 有 关 reduction 子 句 使 用 的 实例 : 


# include < stdio.h» 
# include < stdlib.h» 
* include < omp. h> 
#define TRUE 1 

# define FALSE 0 

# define SUM_INIT 0 


int main() 
t 
int i, n= 25; 
int sum, a[n]; 
int ref = SUM INIT + (n- 1) * n/2; 


omp set num threads(3); 


for (i-0; i<n; i++) 
e[i]-i; 


# pragma omp parallel 
{ 
* pragma omp single 
printf ("Number of threads is % d\n", omp get num threads()); 


m 
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sum = SUM INIT; 
printf("Value of sum prior to parallel region: % d\n", sum); 
# pragma omp parallel for default(none) shared(n, a) V 
reduction( * :sum) / * 对 变量 sum 进行 规约 求 和 操作 * / 
for (i=0; i«n; i++) 
sumt-a[i]; 


printf("Value of sum after parallel region: % d\n", sum); 
printf("Check results: sum =% d (should be $d)Wn", sum, ref); 


return(0); 


i 
运行 结果 如 下 所 示 : 


Number of threads is 3 

Value of sum prior to parallel region: 0 
Value of sum after parallel region: 300 
Check results: sum = 300 (should be 300) 


7. copyin 子 句 


copyin 子 句 用 来 为 线程 组 中 所 有 线程 的 threadprivate 变量 赋 相 同 的 值 。 其 中 ,主线 
程 中 该 变量 的 值 被 作为 初始 值 。 其 格式 如 下 : 


copyin(list) 


3.2.5 运行 时 库 函 数 


运行 时 环境 例 程 函数 监控 并 影响 线程 和 并 行 环境 。 锁 例 程 函数 支持 OpenMP 的 锁 
机 制 。 定 时 例 程 函 数 支持 一 个 简易 的 定时 器 。omp. h 头 文件 给 出 了 运行 时 库 函 数 的 原 
型 定义 。 


1. 环境 例 程 函 数 


1) omp set num threads 
当 执行 到 没有 用 num. threads 子 句 来 指定 线程 数目 的 并 行 区 时 ,可 以 调用 该 函数 设 
置 并 行 区 中 线程 的 数目 。 其 格式 如 下 : 


void omp set num threads( int num threads); 


2) omp get num threads 


返回 线程 组 中 线程 的 数目 。 其 格式 如 下 : 


int omp get num threads(void); 


a 
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3) omp_get_max_threads 
当 没 有 用 num threads 子 句 指定 并 行 区 中 线程 的 数目 时 ,调用 该 函数 获得 当前 创建 
一 个 新 的 线程 组 所 含 线程 的 最 大 数目 。 其 格式 如 下 : 


int omp get max threads(void); 


4) omp get thread num 
返回 当前 线程 的 标识 号 (线程 号 ) ,其 值 范围 为 从 0 开始 到 线程 组 中 线程 数目 减 去 1。 
其 格式 如 下 : 


int omp get thread nun(void); 


5) omp get num procs 


返回 程序 允许 的 最 大 进程 数 。 其 格式 如 下 : 
int omp get num procs(void); 


6) omp in parallel 


如 果 该 函数 调用 包含 于 活动 并 行 区 , 则 返回 true; 否则 ,返回 false。 其 格式 如 下 : 
int omp in parallel(void); 


7) omp set dynamic 


设置 是 否 允 许 对 线程 数目 进行 动态 调整 。 其 格式 如 下 : 
void omp set dynamic(int dynamic threads); 


8) omp get dynamic 


返回 线程 数目 动态 调整 是 否 已 开启 。 其 格式 如 下 : 
int omp get dynanic(void); 


9) omp set nested 


WEDEGXBMROEXGRG. Hn. 
void omp set nested(int nested); 


10) omp get. nested 


jk eli EJEGIE m OER. HRU TF : 
int omp get nested(void); 


1D omp set schedule 


设置 运行 时 调度 方式 。 其 格式 如 下 : 


m 
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void omp set schedule(omp sched t kind, int modifier); 

12) omp get. schedule 

当 使 用 了 运行 时 调度 时 , 返回 当前 正在 使 用 的 调度 方式 。 其 格式 如 下 : 
void omp get schedule(omp sched t * kind, int * modifier); 


13) omp get thread limit 


返回 程序 可 用 的 最 大 线程 数目 。 其 格式 如 下 : 
int omp get thread limit(void); 


14) omp set max active levels 


VEHIT SETTE H 2 REGN : 
void omp set max active levels(int max levels); 


15) omp get max active levels 


AR |l CE 9 18 HAT REKAH o HARRA F : 
int omp_get_max_active_levels(void); 


16) omp_get_level 
3E E AITA e GR RE ITKA H o HARAT : 


int omp_get_level(void); 


17) omp_get_ancestor_thread_num 


EHRT ER AE 110) 26 Rp AR 9 RERA ic E Ae AX Pe ok REER Fe o. HARRA F : 
int omp get ancestor thread nun(int level); 


18) omp get team size 
EE S AE (09 24 gi ER Pe HRES 0] p E [n] 5e ER Fe 2X 7 ni APR UT I D ZEE ZH DINH 
格式 如 下 : 


int omp get team size(int level); 


19) omp get active level 


WRR HEA FTE o Dol i APT C EE UM. ORG : 
int omp get active level(void); 
下 面 举 一 个 实例 展示 环境 变量 的 相关 使 用 : 


# include < stdio. h> 
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# include < stdlib.h» 
# include < omp. h> 
#define TRUE 1 

# define FALSE 0 


int main() 
{ 
int TID=- 1; 


# ifdef OPENMP 

(void) omp set dynamic(FALSE); 

if (omp get dynamic()) 

[printf("Warning: dynamic adjustment of threads has been set in"); 

(void) omp set num threads(3); 

(void) omp set nested(TRUE) ; 

if (! omp get nested()) (printf("Warning: nested parallelism not set\n");} 
# endif 


printf("Nested parallelism is % s\n", 
omp_get_nested() ? "supported" : "not supported"); 


# pragma omp parallel private(TID) 
{ 
TID = omp get thread num(); 
printf("Thread % d executes the outer parallel regionin", TID); 


# pragma omp parallel num threads(2) firstprivate(TID) 
{ 
printf("TID %d: Thread %d executes inner parallel region\n", 
TID, omp get thread num()); 


return(0); 


i 
运行 结果 如 下 所 示 : 


Nested parallelism is supported 

Thread 2 executes the outer parallel region 
Thread 1 executes the outer parallel region 
TID 2: Thread 0 executes inner parallel region 
TID Thread 1 executes inner parallel region 
TID Thread 0 executes inner parallel region 
TID 1: Thread 1 executes inner parallel region 
Thread 0 executes the outer parallel region 
TID 0: Thread 0 executes inner parallel region 
TID 0: Thread 1 executes inner parallel region 
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2. 锁 例 程 函数 


1) omp_init_lock 与 omp_init_nest_lock 


初始 化 锁 。 其 格式 如 下 : 


void omp init lock(omp lock t * lock); 
void omp init nest lock(omp nest lock t * lock); 


2) omp destroy. lock 5j omp. destroy. nest lock 


销毁 锁 。 其 格式 如 下 : 


void omp destroy lock(omp lock t * lock); 
void omp destroy nest lock(omp nest lock t * lock); 


3) omp set lock 与 omp set nest lock 


加 锁 。 其 格式 如 下 : 


void omp set lock(omp lock t * lock); 
void omp set nest lock(omp nest lock t * lock); 


4) omp unset lock.omp unset nest lock 


解锁 。 其 格式 如 下 : 


void omp unset lock(omp lock t * lock); 
void omp unset nest lock(omp nest lock t * lock); 


5) omp test lock.omp test nest lock 


在 不 挂 起 正在 执行 的 任务 的 情况 下 加 锁 。 其 格式 如 下 : 


int omp test lock(omp lock t * lock); 
int omp test nest lock(omp nest lock t * lock); 


3. 定时 例 程 函数 


1) omp_get_wtime 


以 秒 为 单位 返回 消耗 的 时 间 。 其 格式 如 下 : 
double omp get wtime(void); 


2) omp get wtick 


返回 omp. get. wtime 使 用 的 计时 器 的 精度 。 其 格式 如 下 : 


double omp get wtick(void); 


m 


d 
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3.2.6 环境 变量 
环境 变量 中 的 字母 均 为 大 写字 母 , 赋 给 它们 的 值 则 不 区 分 大 小 写 。 
1. OMP SCHEDULE type[ . chunk 


设置 运行 时 调度 类 型 与 调度 块 的 大 小 。 合法 的 OpenMP 调度 类 型 包括 static, 


dynamic、guided 或 auto, 调 度 块 的 大 小 是 一 个 正 整数 。 相 关 含 义 与 使 用 请 参考 相关 的 文 
档 与 书籍 。 


2. OMP NUM THREADS num 
设置 并 行 区 中 的 线程 数目 。 

3. OMP DYNAMIC dynamic 

设置 并 行 区 中 的 线程 数目 是 否 可 以 调整 。 
4. OMP_NESTED nested 

设置 是 否 支 持 嵌 套 并 行 。 

5. OMP STACKSIZE size 


设置 OpenMP 线程 使 用 的 堆栈 大 小 。 堆 栈 大 小 的 合法 值 X( 一 个 正 整 数 ) 包 括 X、 


XB,XK,XM,XG. ,如 果 没 有 设置 B.K、M 或 者 G 等 单位 。 默 认 的 单位 是 kilobytes(K)。 


6. OMP_WAIT_POLICY policy 
设置 等 待 进程 的 行为 控制 策略 。 其 合法 值 包括 active( 进 程 等 待 时 会 消耗 cpu 周期 ) 


和 passive。 


7. OMP MAX ACTIVE LEVELS levels 
VELIS D REHITA H 

8. OMP_THREAD_LIMIT limit 

设置 OpenMP 程序 使 用 的 最 大 线程 数目 。 
3.2.7 运行 及 调试 

1. gdb 


在 Linux 软件 开发 中 ,GDB 是 一 个 功能 强大 、 运 行 稳定 的 程序 调试 工具 。GDB 不 仅 
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可 以 调试 单 进程 的 程序 ,也 可 以 调试 多 进程 与 多 线程 的 程序 。 
GDB 提供 了 一 些 命令 ,可 以 跟踪 程序 的 执行 。 在 编译 程序 时 ,需要 加 上 编译 选项 -g， 
以 便 用 户 使 用 GDB 调试 程序 。 


2. Totalview 


TotalView Debugger 是 一 款 由 TotalView Technologies 公司 开发 的 产品 , 它 拥 有 最 
广泛 和 最 完善 的 C/C++ 调试 功能 。 它 提供 了 高 可 靠 性 、 先 进 和 丰富 的 功能 以 及 便捷 的 使 
用 ,使 之 成 为 UNIX 和 Linux 平台 下 最 好 的 调试 器 。 它 支持 MPI、 多 线程 ,OpenMPI、 
C/C++ „Fortran 等 混合 语言 编程 。 


3.2.8 OpenMP 编程 实例 
下 面 给 出 计算 pi 的 相关 程序 , 供 大 家 参考 。 
1. C 语言 写 的 串 行程 序 


# include < stdio.h» 
# include < tine. h> 
void main () 


f 


static long num_steps = 1000000000; 
double step; 
int i; 
double x, pi, sum= 0.0; 
step- 1.0/(double) num steps; 
for (i=0;i < num steps; i++) 
t 
x= (i+0.5) x step; 
sum= sun * 4.0/(1.0* x* x); 
} 
pi = step * sum; 
printf("Pi =% 21.20f ( %d steps)\n", pi,num steps); 


运行 结果 如 下 所 示 : 


Pi = 3.141592653589763 (1000000 steps), 50000 ms 


2. 使 用 共享 任务 结构 并 行 化 后 的 程序 


# include < stdio. h> 
# include < stdlib. h> 


m 
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# include < omp. h> 
# define NUM_THREADS 4 
void main() 
f 
static long num_steps = 1000000000; 
double step; 
int i; 
double x, pi, sum[NUM THREADS]; 
step- 1.0/(double)num steps; 
omp set num threads(NUM THREADS); 
# pragma omp parallel 
{ 
double x; 
int id; 
id= omp get thread num(); 
sum[ id] = 0.0; 
# pragma omp for 
for(i= id;i<num_steps;i++){ 
x= (i+0.5) * step; 
sum[ id] += 4.0/(1.0+x*x); 


for(i=0, pi=0.0; i<NUM THREADS; i++) 
pi+= sum[i] * step; 


printf("Pi= %21.20f (sd steps)\n", pi, num steps); 
} 


运行 结果 如 下 所 示 : 


Pi = 3.14149740762628182367 (100000 steps), 10000 ms 


3. 使 用 归 约 后 的 并 行程 序 


# include < stdio.h» 

# include < time. h> 

# include < omp. h> 

# define NUM_THREADS 4 

void main () 

{ 
time_t start_time, finish_time; 
static long num_steps = 1000000; 
double step; 
int i; 
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double x, pi, sum - 0.0; 
step- 1.0/(double) num steps; 
omp set num threads(NUM THREADS); 
start time- clock(); 
* pragma omp parallel for reduction( + :sum) private(x) 
for (i=0;i < num steps; i++) 
( 
x- (i*0.5) x step; 
sum- sun + 4.0/(1.0 * x* x); 


) 


pi-step * sum; 
finish tine = clock(); 
printf("Pi-*21.20f ( &d steps) Wn", pi, num steps); 


运行 结果 如 下 所 示 : 
3. 


Pi = 3.14159265358987394023 (1000000 steps), 10000 ms 


读者 可 尝试 运行 本 节 的 实例 程序 。 如 果 有 兴趣 可 以 加 入 clock OTRETRI KZ, fr — Fi 
个 程序 的 运行 所 用 时 间 。 虽 然 上 述 程序 都 非常 简短 ,但 却 可 以 很 好 地 理解 OpenMP。 如 
果 对 OpenMP 及 其 编程 感 兴趣 的 话 ,可 以 查找 相关 文档 与 书籍 进行 深入 的 学 习 。 


Rene 


OpenMP 是 一 种 基于 共享 存储 系统 的 并 行 编程 模型 。 与 MPI 和 PVM 相 比 ， 
OpenMP 提供 了 更 为 简单 的 编程 模型 ,更 易于 编程 ,但 其 系统 开销 比 MPI 大 。 同 时 ， 
OpenMP 实现 并 不 要 求 编译 器 检查 数据 相关 性 访问 冲突 、 死 锁 、 竞 争 或 其 他 可 能 导致 程 
序 错误 执行 的 问题 , 它 完全 依赖 于 用 户 来 保证 编译 指导 的 正确 性 。 


3.3 MapReduce 


并 行 计算 的 一 个 重要 发 展 是 基于 机 群 计算 的 大 量 增加 ,其 典型 代表 是 Google 公司 开 
发 的 MapReduce 并 行 编程 模型 。MapReduce 是 对 庞大 数据 档案 进行 搜索 的 工具 。 
Google 公司 使 用 MapReduce 完成 诸如 PageRank 的 操作 。 现 在 ,MapReduce 的 应 用 范 
围 非 常 广泛 , Google、FaceBook 和 Amazon 等 诸多 国内 外 知名 大 公司 都 在 使 用 
MapReduce 加 速 或 者 简化 各 自 公司 的 业务 。 


3.3.1 MapReduce 简介 
MapReduce 是 Google 公司 提出 的 并 行 编程 模型 ,其 特点 是 简单 易学 .适用 广泛 ,能 
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够 降低 并 行 编程 难度 ,让 程序 员 从 繁杂 的 工作 中 解脱 出 来 ,可 以 轻松 地 编写 简单 ,高效 的 
分 布 式 并 行程 序 ,目前 已 被 Google 用 在 处 理 海量 数据 的 实际 工作 中 。 

MapReduce 并 行 编程 模型 的 最 大 优势 在 于 能 够 有 效 降 低 并 行 编程 的 复杂 度 , 提 高 编 
程 效率 。 其 主要 贡献 在 于 : 

CD 使 用 廉价 的 商用 机 器 组 成 机 群 , 费 用 较 低 ,同时 又 具有 较 高 的 性 能 。 那 些 原 本 需 
要 使 用 大 型 专用 设备 才能 完成 的 事情 ,现在 利用 普通 的 PC 机 群 就 能 完成 。 

CO 松 耦 合 和 无 共享 结构 使 之 具有 良好 的 可 扩展 性 。MapReduce 的 一 个 重要 应 用 领 
域 就 是 云 计算 , 云 计算 要 求 良 好 的 可 扩展 性 ,MapReduce 很 好 地 满足 了 这 一 点 。 

@ 提供 了 一 个 运行 时 支持 库 , 它 支持 任务 的 自动 并 行 执行 。 提 供 的 接口 便于 用 户 高 
效 地 进行 任务 调度 .负载 均 衡 、 容 错 和 一 致 性 管理 等 。 用 户 只 要 根据 需要 自 定义 Map, 
Reduce 和 Partition 等 函数 即 可 。 

@ MapReduce 的 使 用 范围 广泛 。 目 前 ,Google 等 诸多 国内 外 知名 大 公司 都 在 使 用 
MapReduce 来 加 速 或 者 简化 各 自 公 司 的 业务 。MapReduce 还 广泛 应 用 于 云 计算 、 数 据 挖 
掘 ` 图 像 处 理 等 领域 。 随 着 科技 的 进步 ,MapReduce 并 行 编程 模型 将 会 更 广泛 地 应 用 。 


3.3.2 MapReduce 实例 
1. 单词 计数 


Google 公司 提出 MapReduce 并 行 编程 模型 ,简化 了 其 分 布 式 系 统 的 编程 。 应 用 程 
序 开 发 人 员 只 需 关 注 应 用 本 身 , 而 机 群 的 可 靠 性 .可 扩展 性 等 问题 , 则 交 由 平台 处 理 。 
MapReduce 提供 了 简单 但 强大 的 接口 Map 和 Reduce, 通 过 这 两 个 接口 ,MapReduce 并 
行 编程 模型 可 自动 并 发 和 分 布 执行 大 规模 的 计算 。Map 和 Reduce 的 概念 来 自 于 更 早 的 
LISP 等 函数 式 语言 。Map 操作 处 理 输 入 数据 的 每 个 逻辑 “记录 ”, 产 生 一 组 中 间 的 (key， 
value) 键 值 对 。 接 下 来 ,在 所 有 相同 key 的 中 间 结 果 上 执行 Reduce 操作 ,来 合并 适当 的 
数据 ,继而 得 到 下 一 步 的 输入 数据 或 计算 结果 。 
下 面 , 以 统计 文档 集合 中 每 个 单词 出 现 的 次 数 ( 即 单词 计数 ) 为 例 来 说 明 MapReduce 
的 过 程 。 其 伪 代 码 如 下 : 
Map(String key, String value): 
/ * key: 文档 的 名 字 
/* value: 文档 的 内 容 * / 
for each word w in value: 
EmitIntermediate(w, "1"); 
Reduce(String key, Iterator values): 
/* key: 一 个 词 


/* values: 一 个 计数 列表 / 
int result = 0; 
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for each v in values: 
result += ParseInt(v); 
Enit(AsString(resut)); 
其 中 ,Map 函数 生成 每 个 词 和 该 词 的 出 现 次 数 (在 该 例 中 就 是 D). Reduce 函数 把 生 
成 的 每 个 特定 的 词 的 出 现 次 数 累 加 在 一 起 。 另 外 ,用 户 使 用 输入 输出 文件 的 名 字 和 可 选 
的 调节 参数 来 填充 一 个 MapReduce 对 象 。 然 后 ,调用 MapReduce 函数 ,并 把 对 象 传递 给 
它 , 将 用 户 的 代码 和 MapReduce 库 链 接 在 一 起 。 
该 例 用 字符 串 作 为 输入 和 输出 。 从 概念 上 讲 , Map() 和 Reduce( ) 函 数 的 输入 /输入 
类 型 应 遵循 以 下 规则 : 
Map(k1, v1) = list(k2, v2) 
Reduce(k2, list(v2)) 一 list(v2) 
也 就 是 说 ,输入 的 键 值 和 输出 的 键 值 属 于 不 同 的 域 , 中 间 的 键 值 和 输出 的 键 值 属 于 相 
同 的 域 。 


2. 其 他 实例 


MapReduce 并 行 编程 模型 在 实际 系统 中 使 用 非常 广泛 ,下 面 列举 一 些 可 以 利用 
MapReduce 并 行 编程 模型 进行 计算 的 例子 。 
1) 分 布 式 的 Grep UNIX 工具 程序 ,可 查找 文件 内 的 字符 串 ) 
。 如 果 输 入 行 匹配 给 定 样式 ,Map 函数 就 输出 该 行 。 
。 Reduce 函数 将 中 间 数 据 复制 给 输出 。 
2) 计算 URL 的 访问 频率 
* Map 函数 处 理 Web 页 面 请 求 的 记录 ,输出 CURL, 1) 。 
* Reduce 函数 把 相同 URL 的 value 值 累 加 起 来 ,产生 一 个 (URL, 记录 总 数 ) 对 。 
3) WÉ] Web-Link 图 
* Map 函数 为 每 个 链接 输出 (目标 URL. W URL) 对 。 其 中 ,一 个 URL 叫做 目标 ， 
包含 该 URL 的 页 面 叫做 源 。 
* Reduce 函数 聚合 所 有 与 同一 目标 URL 相关 联 的 源 URL 列表 ,产生 (目标 URL. 
list( 源 URL)) 对 。 
4) 主机 术语 向 量 指标 (Term-Vector per Hosts) 
术语 向 量 用 来 概述 出 现在 一 个 文档 或 一 个 文档 集中 最 重要 的 一 些 词 ,用 ( 词 , 频率 ) 
对 表示 。 
* Map 函数 为 每 一 个 输入 文档 (主机 名 是 从 文档 的 URL. 取 的 ) 产 生 一 个 (主机 名 ， 
术语 向 量 ) 对 。 
* Reduce 函数 接收 给 定 主机 的 所 有 文档 的 术语 向 量 。 它 把 这 些 术 语 向量 加 在 一 


" 
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起 ,丢弃 低频 的 术语 ,然后 产生 一 个 最 终 的 (主机 名 , 术语 向 量 ) 对 。 

5) 倒 排 索引 

* Map 函数 分 析 每 个 文档 ,然后 产生 一 个 ( 词 , 文档 号 ) 序 列 对 。 

* Reduce 函数 处 理 指定 词 的 所 有 序列 对 ,排序 相应 的 文档 IDs, 并 产生 一 个 ( 词 ，list 
(文档 ID)) 对 。 所 有 的 输出 对 ,组 成 一 个 简单 的 倒 排 索引 。 它 可 以 简单 增加 跟踪 
词 位 置 的 计算 。 

6) 分 布 式 排 序 

* Map 函数 从 每 个 记录 中 提取 关键 字 , 并 且 产生 一 个 (关键 字 , 记录 ) 对 。 

* Reduce 函数 不 改变 任何 的 对 。 


3.3.3 MapReduce 基本 原理 介绍 
1. 执行 方式 


Google 公司 最 早 提出 了 MapReduce 并 行 编 程 模型 。 当 用 户 程 序 调用 MapReduce 
运行 支持 库 时 ,通过 调用 Map 函数 ,输入 数据 被 自动 分 割 成 M 片 分 布 到 多 台 机 器 上 , 输 
入 的 片 能 够 在 不 同 的 机 器 上 并 行 处 理 。 通 过 调用 Reduce 函数 ,中 间 key 被 Partition PR 
数 分 割 ,从 而 形成 尺 片 (例如 ,hash(key) mod R) ,它们 也 分 布 到 多 台 机 器 上 。 分 制 数量 
R 和 Partition 函数 由 用 户 来 指定 。 

图 3-28 显示 了 Google 公司 实现 的 MapReduce 操作 的 全 过 程 (如 参考 文献 [2] 所 
示 )。 当 用 户 的 程序 调用 MapReduce 的 时 候 , 将 发 生 下 面 一 系列 动作 (下 面 的 数字 与 
图 3-28 中 的 数字 标签 相对 应 ) : 

CD 首先 ,用 户 程序 将 输入 数据 分 割 成 M 份 ,每 份 为 16MB 到 64MB 大 小 的 数据 块 
(可 通过 参数 设 定数 据 块 的 大 小 ) 。 然 后 ,开始 在 集群 上 拷贝 程序 。 这 些 程序 拷贝 中 有 一 
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图 3-28 MapReduce 的 执行 过 程 


PIE 并行 编程 模型 与 语言 


份 是 Master, 其 余 都 是 向 Master 请 求 任务 的 Worker. 

© 一 旦 分 配 到 Map 任务 ,Worker 便 从 相应 的 输入 数据 中 分 析出 (key，value) 对 ,并 
把 每 个 (key,，value) 对 作为 用 户 定义 的 Map 函数 的 输入 。Map 函数 产生 的 中 间 值 (key， 
value) 对 被 存储 在 内 存 中 。 

© 存储 在 内 存 里 的 中 间 值 (key，value) 对 会 被 定期 写 人 本 地 磁盘 中 ,用 户 定义 的 
Partition 困 数 将 其 划分 为 多 个 部 分 。Master 负责 将 这 些 中 间 值 (key, value) 对 在 本 地 磁 
盘 上 的 存储 位 置 传送 给 执行 Reduce 任务 的 Worker, 

(D 当 一 个 执行 Reduce 任务 的 Worker 得 到 Master 的 位 置 通知 时 , 它 使 用 远程 过 程 
调用 从 执行 Map 任务 的 Worker 的 本 地 磁盘 中 读 取 中 间 值 (key, value) 对 。 

© 当 一 个 执行 Reduce 任务 的 Worker 从 远程 读 取 到 所 有 所 需 的 中 间 值 (key, value) 
对 之 后 ,通过 排序 使 具有 相同 key 的 内 容 聚 合 在 一 起 。 由 于 有 许多 不 同 的 key 映射 到 相 
同 的 Reduce 任务 ,所 以 排序 是 必须 的 。 如 果 中 间 数 据 比 内 存 还 大 ,那么 还 需要 进行 外 部 
排序 。 之 后 形成 (key, list(value)) 对 ,将 其 作为 Reduce 函数 的 输入 。 

© 将 每 个 Reduce 函数 的 输出 分 别 放 到 相应 的 输出 文件 中 。 当 所 有 的 Map 和 
Reduce 任务 都 执行 完毕 ,Master 唤醒 用 户 程序 。 此 时 ,用 户 程序 中 的 MapReduce 调用 返 
回 到 用 户 代码 中 。 

作为 一 个 目前 被 广泛 使 用 的 并 行 编程 模型 ,MapReduce 可 以 处 理 TB 或 者 PB 量 级 
的 数据 , 它 能 非常 方便 地 在 许多 机 器 上 实现 海量 数据 的 并 行 处 理 。 


2. MapReduce 语义 


虽然 ,Google 公司 提出 的 MapReduce 并 行 编程 模型 可 以 用 最 简单 的 Map 和 Reduce 
这 两 个 函数 满足 部 分 应 用 的 需求 ,但 随 着 该 并 行 编程 模型 的 发 展 ,产生 了 MapReduce 的 
一 些 扩展 语义 ,如 下 所 示 。 

(D Split 函数 : 由 于 高 性 能 计算 问题 的 输入 是 多 种 多 样 的 ,很 难 找到 一 种 固定 的 输入 
模式 ,只 要 可 以 将 这 种 输入 模式 转换 成 相应 的 (key，value) 对 形式 即 可 。 因 此 ,Split 函数 
的 输入 可 以 是 用 户 定义 的 任何 结构 的 输入 ,如 WordCount( 单 词 计数 ) 中 的 单词 文本 。 除 
输入 数据 外 ,用 户 可 能 需要 提供 Split 粒度 .key 和 value 的 生成 过 程 的 额外 定义 。 之 后 ， 
用 户 只 需 将 key 和 value 作为 参数 传递 给 系统 提供 的 接口 函数 ,系统 便 会 自动 生成 Split. 
并 将 其 缓存 人 队列 。 

© Map 函数 : Map 函数 是 由 用 户 定义 的 ,例如 Map(key_type key. value. type 
value) 。 其 中 的 key 和 value 分 别 由 用 户 在 Split 阶段 定义 。Map 函数 应 当 实 现 对 key 和 
value 存储 的 数据 进行 操作 并 产生 中 间 值 (key, value) 对 。 

© Combine 函数 : 如 果 出 于 对 性 能 和 效率 的 考虑 ,Combine 函数 将 Map 操作 的 输出 
中 间 值 (key, value) 对 收集 到 一 些 list 中 ,一 个 key 值 对 应 一 个 list。 当 写 和 一定 数量 的 
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(key，value) 对 时 ,这 部 分 list 就 会 被 处 理 并 产生 (key, list(value)) X}. 

@ Partition 函数 : 用 户 自 己 定义 Partition 函数 ,该 函数 把 Combine 函数 产生 的 
(key, list(value)) 对 缓存 到 不 同 的 Partition 块 中 ,每 个 Partition 块 都 是 一 个 数组 结构 。 
Partition 函数 典型 的 实现 是 key mod n.n 是 本 地 Partition 块 的 数量 ,Partition 函数 的 返 
回 值 就 是 本 地 Partition 的 编号 ,其 范围 为 从 0 到 ”一 1。 

© Sort 函数 : 当 一 个 执行 Reduce 任务 的 Worker 从 远程 读 取 到 所 有 所 需 的 中 间 值 
(key, list(value)) 对 之 后 ,将 它们 写 入 一 个 文件 中 。 通 过 Sort 函数 对 该 文件 进行 排序 ,把 
具有 相同 key 值 的 (key, list(value)) 对 排列 在 一 起 ,之 后 将 该 文件 作为 Reduce PASCI AG A. 

Reduce 函数 : 用 户 自己 定义 Reduce 函数 ,该 函数 顺序 读 入 输入 文件 ,将 一 个 key 
对 应 的 value 或 者 list(value) 传 送 给 Reduce 函数 。 完 成 操作 之 后 ,再 去 读 取 下 一 个 key. 
每 个 Reduce 任务 最 后 得 到 一 个 输出 文件 。 

@ Merge Kt: Merge 函数 把 每 个 Reduce 任务 的 输出 文件 聚合 到 一 起 ,得 到 最 后 
的 输出 文件 。 


3. Hadoop 的 MapReduce 


受 Google 公司 提出 的 MapReduce 并 行 编程 模型 的 启发 ,Hadoop( 源 于 Apache 的 
Lucene 项 目 ) 应 运 而 生 , 目 前 它 是 一 个 开源 的 、 可 运行 于 大 型 分 布 式 集群 上 的 、 被 广泛 使 
用 的 并 行 编程 框架 。 

Hadoop 提供 了 一 个 支持 MapReduce 并 行 编程 模型 的 部 件 ,使 用 分 布 式 文件 系统 
HDFS(Hadoop Distributed Filesystem) 代替 Google 的 GFS, 并 且 基 于 Google 的 Big 
Table 开发 了 自己 的 分 布 式 数据 库 HBase。 

Hadoop 系统 的 结构 如 图 3-29 所 示 , 它 有 一 个 Master 和 多 个 Slave。 其 中 , Master 
主要 负责 NameNode 和 JobTracker 的 工作 ,JobTracker 的 主要 职责 是 启动 .跟踪 和 调度 
各 个 Slave 的 任务 执行 。 每 个 Slave 主要 负责 DataNode 和 TaskTracker 的 工作 ， 
TaskTracker 能 够 根据 应 用 的 要 求 对 本 地 数据 执行 Map 与 Reduce 任务 。 


Fr---------------------- 


! NameNode JobTracker 
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图 3-29 Hadoop 的 结构 示意 图 
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Hadoop 中 MapReduce 的 执行 步骤 如 下 所 示 : 

(D 在 执行 MapReduce 任务 时 ,首先 通过 FileSplit 把 一 个 输入 数据 集 分 割 成 相互 独 
立 的 数据 块 ,这 些 数据 块 作为 Map 任务 的 输入 。 然 后 ,将 程序 复制 到 每 个 结 点 上 。 在 这 
些 结 点 中 ,有 一 个 是 JobTracker 结 点 ,其 他 结 点 都 是 TaskTracker 结 点 。JobTracker 结 
点 负责 TaskTracker 结 点 群 的 任务 调度 和 分 配 。Hadoop Job client 负责 向 JobTracker 
结 点 提交 任务 ,并 且 配 置 JobTracker 结 点 的 参数 。 

@ 被 分 配 到 Map 任务 的 TaskTracker 结 点 读 取 相 应 的 输入 内 容 , 从 中 分 析出 (key， 
value) 对 ,调用 用 户 定义 的 Map 函数 产生 中 间 值 (key，value) 对 。 

© 当 Map 操作 输出 它 的 键 值 (key, value) 对 时 ,出 于 对 性 能 和 效率 的 考虑 ,Hadoop 
会 提供 一 个 合成 器 (Combine)。 通 过 Combine 操作 , Map 操作 所 产生 的 键 值 (key， 
value) 对 就 不 会 马上 写 人 输出 文件 ,它们 会 被 收集 在 一 些 list 中 ,一 个 key 对 应 一 个 list。 
当 写 入 一 定数 量 的 键 值 (key, value) 对 时 ,这 部 分 的 list 会 被 Combine 处 理 , 产 生 中 间 值 
(key, listCvalue) X}. 

@ 当 一 个 Reduce 任务 开始 时 ,其 输入 分 布 在 各 个 结 点 上 Map 任务 的 输出 文件 中 。 
在 执行 Reduce 任务 的 Worker 从 远程 读 取 到 所 有 所 需 的 中 间 值 (key, list(value)) 对 之 
后 ,必须 通过 排序 使 具有 相同 key 的 中 间 值 (key，list(value)) 对 聚合 在 一 起 ,并 作为 
Reduce 函数 的 输入 。 最 后 的 输出 结果 由 每 个 Reduce 的 输出 文件 组 成 。 

Hadoop 也 存在 一 些 不 足 : 

* Hadoop 主要 针对 大 块 的 数据 文件 (如 GB, TB 级 别 ) .由 于 系统 开销 等 原因 ,小 块 
数据 的 处 理 速度 并 不 一 定 比 串 行程 序 快 ; 
由 于 中 间 结 果 文件 被 存储 在 各 个 分 布 式 计算 结 点 的 内 存 或 磁盘 上 的 ,如 果 计 算 产 
生 的 中 间 结 果 文 件 非常 巨大 的 话 , 则 Reduce 过 程 需要 通过 远程 过 程 调用 获取 这 
些 中 间 结 果 文 件 ,会 加 大 网 络 传输 的 开销 ; 
。 Hadoop 作为 一 个 比较 新 的 项 目 ,性 能 和 稳定 性 的 提高 还 需要 一 定 的 时 间 。 


3.3.4 容错 


由 于 MapReduce 的 设计 初衷 是 用 于 在 成 百 ` 上 千 台 机 器 上 进行 海量 数据 的 处 理 , 所 
以 该 平台 必须 考虑 机 器 发 生 故障 时 的 容错 处 理 。 下 面 ,简单 介 绍 一 下 MapReduce 的 容错 
处 理 机 制 。 

如 图 3-28 所 示 ,Master 结 点 周期 性 地 ping 每 个 Worker 结 点 。 如 果 在 一 个 时 间 段 
内 Worker 结 点 没有 返回 信息 ,Master 结 点 就 将 标注 该 Worker 结 点 失效 。 由 该 失效 
Worker 完成 的 所 有 Map 任务 被 重新 设置 成 初始 空闲 状态 ,并 分 配给 其 他 Worker 执行 。 
同样 地 ,每 个 在 失效 Worker 上 正在 运行 的 Map 或 Reduce 任务 ,也 将 被 重新 设置 成 空闲 
状态 ,并 被 重新 调度 。 在 一 个 失效 机 器 上 已 经 完成 的 Map 任务 将 被 再 次 执行 (因为 其 输 
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出 存储 在 它 的 磁盘 上 ,所 以 不 可 访问 ) ,而 已 经 完成 的 Reduce 任务 将 不 会 被 再 次 执行 ( 因 
为 其 输出 存储 在 全 局 文件 系统 中 )。 当 一 个 Map 任务 首先 被 Worker A 执行 之 后 ,又 被 
Worker B 执行 (因为 Worker A 失效 了 ), 则 该 Map 任务 被 重新 执行 的 消息 将 通知 给 所 有 
执行 Reduce 任务 的 Workers RM Worker A 读 取 数据 执行 Reduce 任务 的 任何 Worker 
都 将 从 Worker B 读 取 数据 。 

MapReduce 运行 时 系统 会 定期 设 定 Master 检查 点 。 如 果 Master 任务 失效 , 则 可 从 
上 次 设 定 的 最 后 一 个 检查 点 开始 启动 另 一 个 Master 结 点 。 然 而 ,由 于 只 有 一 个 Master 
结 点 ,如 果 Master 结 点 处 发 生 故 障 , 则 中 止 计 算 。 客 户 可 以 检查 最 后 一 个 Master 检查 
点 ,并 且 可 以 根据 需要 重新 执行 MapReduce 操作 。 

Map 和 Reduce 任务 的 可 靠 性 是 由 输出 进行 原子 提交 完成 的 。 每 个 正在 进行 的 任务 
将 输出 写 和 人 一 个 私有 的 临时 文件 中 。 当 全 部 写 完 之 后 ,进行 提交 操作 ,并 将 这 些 临时 文件 
变 为 永久 保存 的 文件 。 


3.3.5 MapReduce 编程 实例 .运行 与 分 析 


下 面 给 出 在 Hadoop 开源 云 计 算 包 中 关于 WordCount( 单 词 计数 ) 例 子 的 实现 ,在 其 
中 调用 了 Hadoop 相关 的 API。 

在 该 实例 中 ,首先 读 取 输 入 文件 ,把 每 行 分 割 成 一 个 一 个 的 单词 ,之 后 对 这 些 单 词 进 
行 计 数 ,最 后 输出 排 好 序 的 单词 列表 和 每 个 单词 出 现 的 次 数 。 其 具体 代码 如 下 所 示 ， 


package org. apache. hadoop. mapred; 

import java. io. IOException; 

import java. util. ArrayList; 

import java. util. Iterator; 

import java. util. List; 

import java. util. StringTokenizer; 

import org. apache. hadoop. conf. Configuration; 
import org. apache. hadoop. conf. Configured; 

import org. apache. hadoop. fs. Path; 

import org. apache. hadoop. io. IntWritable; 

import org. apache. hadoop. io. LongWritable; 

import org. apache. hadoop. io. Text; 

import org. apache. hadoop. mapred. FileInputFormat; 
import org. apache. hadoop. mapred. FileOutputFormat; 
import org. apache. hadoop. mapred. JobClient; 
import org. apache. hadoop. mapred. JobConf ; 

import org. apache. hadoop. mapred. MapReduceBase; 
import org. apache. hadoop. mapred. Mapper; 

import org. apache. hadoop. mapred. OutputCollector; 
import org. apache. hadoop. mapred. Reducer; 
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import org. apache. hadoop. mapred. Reporter; 
import org. apache. hadoop. util. Tool; 
import org. apache. hadoop. util. ToolRunner; 
public class WordCount extends Configured implements Tool 
f 
/* MapClass 类 统计 每 一 行 中 的 单词 个 数 
* 把 每 一 行 的 输入 分 割 成 一 个 一 个 单词 ,并 且 将 它们 以 (<b> word</b>, <b>1</b>) 
* 的 形式 提交 */ 
public static class MapClass extends MapReduceBase 
implements Mapper < LongWritable, Text, Text, IntWritable» 
{ 
private final static IntWritable one = new IntWritable(1); 
private Text word = new Text() ; 
public void map(LongWritable key, Text value, 
OutputCollector« Text, IntWritable» output, 
Reporter reporter) throws IOException 


String line - value. toString(); 
StringTokenizer itr = new StringTokenizer(line); 
while (itr. hasMoreTokens( ) ) 
i 
word. set(itr.nextToken()); 
output.collect(word, one); 


/* Reduce 类 ,提交 输入 值 的 和 * / 
public static class Reduce extends MapReduceBase 
implements Reducer < Text, IntWritable, Text, IntWritable^ 


public void reduce(Text key, Iterator < IntWritable? values, 
OutputCollector < Text, IntWritable? output, 
Reporter reporter) throws IOException 


int sum- 0; 
while (values. hasNext()) 
{ 
sum += values. next().get(); 


} 
output.collect(key, new IntWritable(sum)); 
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static int printUsage() 

t 
System. out. println("wordcount [ -m «maps»] [- r «reduces»] < input» < output >"); 
ToolRunner. printGenericCommandUsage(System. out) ; 
return - 1; 


/ * word count map/reduce 运行 时 系统 主 程序 
* 包括 提交 Map/Reduce 任务 
* 当 job tracker 发 现 通信 出 现 问题 时 , 抛 出 IOException* / 
public int run(String[] args) throws Exception 
{ 
JobConf conf = new JobConf(getConf(), WordCount. class); 
conf. setJobName("wordcount" ) ; 
// the keys are words (strings) 
conf. setOutputKeyClass(Text. class); 
// the values are counts (ints) 
conf. setOutputValueClass(IntWritable.class); 
conf. setMapperClass(MapClass. class); 
conf. setCombinerClass(Reduce. class); 
conf. setReducerClass(Reduce. class); 
List< String> other args = new ArrayList < String>(); 
for(int i=0; i < args. length; ++i) 


{ 


try 
{ 
if (" - n". equals(args[i])) 
{ 
conf. setNumMapTasks( Integer. parseInt(args[++i])); 
} 
else if (" - r". equals(args[i])) 
{ 
conf. setNunReduceTasks( Integer. parseInt(args[-*i])); 
) 
else 
{ 
other args.add(args[i]); 
) 
) 


catch (NumberFormatException except) 

( 
System. out. println("ERROR: Integer expected instead of " + args[i]); 
return printUsage(); 
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catch (ArrayIndexOutOfBoundsException except) 
{ 
System. out. println("ERROR: Required parameter missing from" + 
args[i-1]); 
return printUsage(); 


} 
if (other args.size() != 2) 
{ 
System. out. println( "ERROR: Wrong number of parameters: " + 
other args.size() + " instead of 2."); 
return printUsage(); 


) 

FileInputFormat. setInputPaths(conf, other args.get(0)); 
FileOutputFormat.setOutputPath(conf, new Path(other args.get(1))); 
JobClient. runJob(conf) ; 

return 0; 


public static void main(String[] args) throws Exception 


{ 
int res = ToolRunner. run(new Configuration(), new WordCount(), args); 


Systen. exit(res); 


j 


下 面 是 WordCount( 单 词 计数 ) 的 运行 样 例 及 其 结果 。 
输入 样 例 : 


$ bin/hadoop fs -1s /user/joe/wordcount/input/ 
/user/joe/wordcount/input/file01 
/user/joe/wordcount/input/file02 

$ bin/hadoop fs -cat /user/joe/wordcount/input/file01 
Hello World Bye World 

$ bin/hadoop fs -cat /user/joe/wordcount/input/file02 
Hello Hadoop Goodbye Hadoop 


运行 程序 : 


$ bin/hadoop jar /user/joe/wordcount. jar org. myorg. WordCount 
/user/ joe/wordcount/input /user/joe/wordcount/output 


输出 : 


$ bin/hadoop fs - cat /user/joe/wordcount/output/part - r — 00000 


并 行 计 算 机 及 编程 基础 


Bye 1 
Goodbye 1 
Hadoop 2 
Hello 2 
World 2 


pae 


— € 

目前 ,MapReduce 并 行 编程 模型 正 改 变 着 海量 数据 的 并 行 计算 方式 , 必 将 在 并 行 计 
算 领 域 发 挥 越 来 越 重要 的 作用 。MapReduce 应 用 广泛 、 创 新 独特 , 它 使 得 以 前 只 能 在 大 
型 专用 硬件 上 处 理 的 事情 (如 处 理 千 兆 级 别 的 数据 ) ,现在 在 普通 的 PC 集群 上 即 可 进行 。 
在 亚马逊 的 Amazon Elastic MapReduce 产品 中 ,以 Web 服务 的 方式 很 好 地 应 用 了 
Apache Hadoop (MapReduce 的 一 种 实现 )。 而 且 , MapReduce 还 被 集成 到 IBM, Oracle 
等 公司 的 一 些 主流 解决 方案 中 ,并 被 广泛 应 用 于 云 计算 服务 器 。 


3.4 CUDA 


2007 年 6 月 ,NVIDIA 公司 推出 了 通用 计算 产品 CUDA (Compute Unified Device 
Architechture) ,其 目前 的 版 本 为 4.0。CUDA 是 一 种 将 GPU 作为 数据 并 行 计算 设备 的 
软 硬 件 体 系 。 与 传统 的 GPU 通用 计算 开发 方式 相 比 ,使 用 CUDA 进行 编程 更 简单 ,功能 
也 更 强大 ,应 用 领域 更 广泛 ,支持 CUDA 的 硬件 性 能 更 强 。CUDA 完全 改变 了 PC 中 的 
一 些 规则 ,使 用 GPU 进行 计算 无 须 额外 的 成 本 开销 , 却 可 以 在 一 些 应 用 中 至 少 获得 一 个 
数量 级 的 加 速 。 在 科学 计算 中 ,一 些 过 去 必须 由 集群 处 理 的 任务 ,现在 也 可 由 桌面 PC 完 
成 了 ,这 使 得 科研 人 员 能 够 更 关注 于 研究 本 身 。 目 前 ,CUDA 架构 已 应 用 于 GeForce, 
ION,Quadro 及 Tesla GPU E. 

目前 ,很 多 重要 的 消费 级 视频 应 用 程序 都 已 使 用 或 即将 使 用 CUDA 进行 加 速 ,其 中 
不 乏 Elemental Technologies, MotionDSP 以 及 LoiLo 等 公司 的 产品 。 在 科研 界 ,CUDA 
自 出 现 以 来 一 直 受 到 热 捧 。 

例如 ,CUDA 能 够 对 AMBER 进行 加 速 。AMBER 是 一 款 分 子 动力 学 模拟 程序 ,在 
全 世界 的 学 术 界 与 制药 企业 中 有 超过 60 000 名 研究 人 员 使 用 该 程序 加 速 新 药 的 探索 工 
作 。 在 金融 市 场 ,Numerix( 为 近 400 家 金融 机 构 广 泛 使 用 和 CompatibL 使 用 CUDA 实 
现 了 一 款 全 新 的 对 手 风 险 应 用 程序 18 倍 的 性 能 提升 。 

CUDA 的 广泛 应 用 造就 了 专用 于 计算 的 Tesla GPU 的 崛起 。 全 球 财富 五 百 强 企业 
现 已 经 安装 了 700 多 个 GPU 集群 ,这 些 企业 涉及 各 个 领域 ,例如 能 源 领域 的 斯 伦 贝 谢 与 
雪 佛 龙 ,银行 业 的 法 国 巴黎 银行 等 。 在 这 些 GPU 集群 中 ,GPU 将 不 仅仅 是 图 形 处 理 器 ， 
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它 还 被 作为 所 有 应 用 程序 均 可 使 用 的 通用 并 行 处 理 器 。 


3.4.1 简介 


在 GPU 支持 通用 计算 之 前 ,程序 员 通 过 图 形 API 进行 编程 ,这 些 API 主要 应 用 于 图 
像 和 多 媒体 领域 ,比如 DirectX 和 OpenGL。 由 于 GPU 实现 通用 计算 存在 着 许多 困难 
(比如 ,通用 图 形 API 的 编程 复杂 ,难于 学 习 , 一 些 程序 会 遇 到 瓶颈 ; 另外 ,GPU 编程 缺乏 
灵活 性 ,大 大 限制 了 GPU 性 能 的 发 挥 ), 所 以 AMD 和 NVIDIA 公司 分 别 推出 了 面向 
GPGPU( 通 用 处 理 GPU) 的 编程 语言 : Brook 十 和 CUDA。 

Brook 十 是 基于 斯 坦 福 大 学 的 Brook 提出 的 , 它 和 Brook 一 样 也 是 一 种 类 C 的 编程 
语言 , 它 将 * 流 ”概念 引入 GPU 计算 模型 ,从 而 支持 GPGPU。Brook 十 中 的 * 流 ”被 定义 成 
一 个 可 以 被 并 行 操作 的 数组 。 同 时 ,定义 Kernel, 它 是 作用 在 流 上 的 函数 。 

mi CUDA 却 将 GPU 上 的 计算 与 图 形 完全 区 分 开 , 它 通过 关键 字 指 派 数 据 并 行 函数 
及 其 相关 数据 以 多 线程 的 方式 在 GPU 上 运行 ,这 更 类 似 于 传统 的 多 线程 编程 ,CUDA 也 
要 求 程序 员 对 GPGPU 的 体系 结构 及 其 存储 层次 有 一 定 的 了 解 。 

从 图 3-30 可 看 出 NVIDIA 公司 在 GPGPU 方面 所 做 的 贡献 , 它 使 编程 模式 从 单纯 的 
CPU 编程 逐渐 走向 GPU 的 CUDA 编程 。 本 节 的 主要 内 容 是 介绍 NVIDIA 公司 的 
CUDA 系列 产品 。 


CPU GPGPU CUDA GPU Computing 
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图 3-30 ”编程 模式 的 演进 


CUDA 使 用 的 软件 堆栈 由 以 下 三 层 构成 : CUDA Library, CUDA runtime API, 
CUDA driver API, CUDA 的 核心 是 CUDA C 语言, 它 包 含 对 C 语言 的 最 小 扩展 集 和 一 
个 运行 时 库 。 图 3-31 为 CUDA 支持 的 语言 和 编程 层次 结构 。 
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GPU Computing Application 

DirectX Java and 
C/C++ OpenCL Fortran 
Computer Python 


NVIDIA GPU with the CUDA Parallel Computing Architecture 


图 3-31 CUDA 编程 语言 及 其 层次 结构 


以 CUDA C 为 例 , 它 主 要 提供 了 : 

CUDA C 语言 及 对 应 的 编译 器 “CUDA C 其 实 就 是 C 语言 的 变种 , 它 支 持 四 大 

特性 , 即 可 定义 程序 中 运行 在 GPU 或 CPU 上 的 部 分 ,可 定义 位 于 GPU 中 的 变 

量 存储 类 型 ,利用 Kernel、block ,grid 定义 并 行 计 算 ,State 变量 。 

CUDA 库 ”包含 了 很 多 有 用 的 数学 应 用 ,如 CUFFT、CULIBS 等 。 

* CUDA runtime ”其实 就 是 JIT(Just In Time) 编 译 器 ,动态 地 将 PTX 中 间 代 码 编 
译 成 符合 实际 平台 的 硬件 代码 ,并 进行 特定 的 优化 。 

。 CUDA driver 是 相应 API 与 GPU 打交道 的 接口 。 

图 3-32 为 CUDA 的 软件 体系 结构 示意 图 。 
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Æ 3-32 CUDA 的 软件 结构 示意 图 


CUDA 的 软件 组 成 包括 硬件 驱动 .CUDA 驱动 API、 运 行 时 API、 两 个 通用 算术 库 
CUFFT 和 CUBLAS。CUDA 改进 了 DRAM 的 读 写 灵活 性 ,使 GPU 与 CPU 的 机 制 相 
吻合 。 另 一 方面 ,CUDA 提供 了 片上 共享 内 存 , 使 线程 之 间 可 以 共享 数据 ,应 用 程序 可 以 
利用 共享 内 存 来 减少 通过 DRAM 进行 的 数据 传送 ,降低 对 DRAM 内 存 带 宽 的 依赖 。 


3.4.2 CUDA 的 安装 和 配置 
1. 安装 CUDA 相关 组 件 


NVIDIA Parallel Nsight Toolkit 是 目前 NVIDIA 公司 最 新 提供 的 CUDA 系列 工具 
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(可 从 http://developer. nvidia. com 处 下 载 ) ,支持 Windows(32 位 与 64 位 版 本 ) 和 许多 
不 同 的 Linux 版 本 。 

如 何 获 得 一 款 支 持 CUDA 的 GPU 或 系统 呢 ? 

。 想 了 解 面 向 高 性 能 计算 和 超级 计算 应 用 程序 的 Tesla 的 相关 信息 ,请 访问 : 

http://www. nvidia. cn/object/tesla wtb cn. html, 

。 想 了 解 面向 娱乐 的 GeForce 的 相关 信息 ,请 访问 : http://www. nvidia. cn/ 

object/geforce family cn. html. 

* 想 了 解 面向 专业 可 视 化 的 Quadro ,请 访问 : http://www. nvidia. cn/object/wtb | 

workstation cn. html, 

下 面 , 开 始 CUDA 的 安装 过 程 。 

CD 确认 计算 机 中 使 用 的 是 哪 款 GPU ,是 否 是 NVIDIA 公司 的 产品 ,对 于 Windows 
平台 的 用 户 , 可 按照 以 下 步骤 进行 检查 : 

。 右 击 桌面 ,如 果 在 弹出 窗口 中 看 到 *NVIDIA 控制 面板 ”或 “NVIDIA 显示 器 ”等 内 

容 , 则 表示 该 机 中 已 装 有 NVIDIA 的 GPU; 
”在 弹出 的 窗口 中 单 击 *NVIDIA 控制 面板 "或 “NVIDIA 显示 器 ”, 查 看 “显卡 信 
息 ”, 可 以 看 到 GPU 的 名 称 。 

通过 上 述 步 又 可 以 得 到 计算 机 所 使 用 的 GPU 的 型 号 。 

© 确认 该 GPU 是 否 支 持 CUDA。 访 问 http://www. nvidia, cn/object/cuda gpus 
cn. html ,查看 列表 ,看 该 GPU 是 否 列 在 其 中 。 如 果 列 表 中 有 该 GPU , 则 表示 计算 机 已 配 
有 支持 CUDA 的 GPU, 可 以 利用 CUDA 来 加 速 应 用 程序 的 性 能 。 

© 安装 CUDA 产品 的 驱动 程序 。 在 http://www. nvidia. cn/drivers 中 选择 对 应 的 
操作 系统 和 GPU 型 号 ,下 载 相关 的 CUDA 驱动 程序 并 按 步 又 安装 。 

@ 安装 CUDA Toolkit。 目 前 ,NVIDIA 提供 的 CUDA Toolkit 支持 Windows(32 
位 与 64 位 版 本 ) 和 许多 不 同 的 Linux 版 本 ,其 最 新 版 本 为 3. 2, 下 载 地 址 为 http:// 
developer. nvidia. com/object/cuda downloads. html。 选 择 相 应 的 操作 系统 ,下 载 并 安 
装 。CUDA Toolkit 需要 配合 C/C++ 编译 器 。 在 Windows 下 ,目前 只 支持 Visual Studio 
7. x, Visual Studio 8( 包 括 免费 的 Visual Studio C++ 2005 Express) 及 更 高 版 本 。Visual 
Studio 6 和 gcc 在 Windows 下 是 不 支持 的 ,而 在 Linux 下 则 只 支持 gcc。 

© 安装 GPU Computing SDK code samples。 下 载 地 址 与 上 步 CUDA Toolkit 的 下 
载 地 址 相同 。 该 包 包括 了 NVIDIA 官方 提供 的 程序 实例 和 一 些 经 典 算法 。 


2. 使 用 设置 
下 面 ,分 别 介绍 Windows 和 Linux 操作 系统 下 CUDA 的 使 用 设置 。 
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1) Windows 操作 系统 
在 CUDA Toolkit 安装 完成 之 后 ,默认 会 安装 在 C:\CUDA 目录 中 。 该 目录 包含 如 


下 几 个 目录 ， 
* bin 一 一 工具 程序 及 动态 链接 库 ; 
* doc 文件 ; 
* include 头 文件 ; 
* lib 一 一 链接 库 档 案 ; 
* open64 一 一 基于 Open64 的 CUDA 编译 器 ; 
。 src 一 一 一 些 原 代 码 。 


安装 程序 需要 对 一 些 环境 变量 进行 设置 ,包括 : 
* CUDA_BIN_PATH 一 一 工具 程序 所 在 目录 ,默认 为 C:\CUDA\bin; 
。，CUDA_INC_PATH 一 一 头 文件 文件 所 在 目录 ,默认 为 C:NCUDANine; 
。 CUDA_LIB_PATH 一 一 链接 库 文件 所 在 目录 ,默认 为 C:\CUDA\lib。 
下 面 是 在 Visual Studio 环境 下 如 何 添加 CUDA 的 相关 规则 : 
D 建立 一 个 Win32 Console 模式 的 project( 在 Application Settings 中 请 选 Empty 
project) ,并 新 增 一 个 档案 ,例如 main. cu。 
© f£ main. cu 上 单 击 右键 ,选择 Properties。 选 择 General, 确 定 Tool 的 部 分 是 选择 
Custom Build Tool, 

@ 选择 Custom Build Step. TE Command Line 进行 如 下 设置 。 
Release 模式 :"$(CUDA_BIN_PATH )Nnvcc. exe" -ccbin " $ (VCInstallDir) bin" -c 

-DWIN32 -D CONSOLE -D MBCS -Xcompiler 

/ EHsc. / W3. /nologo. /Wp64./O2./Zi./MT 

-I" $(CUDA INC PATH)" 

-o $ (ConfigurationName)A $ (InputName). obj $ (InputFileName) 
Debug 模式 : " $ (CCUDA. BIN PATH) VWvcc. exe" -ccbin " $ ( VCInstallDir) bin" 

-c -D DEBUG -DWIN32 -D CONSOLE -D MBCS 

-Xcompiler 

/ EHsc. /W3. /nologo. /Wp64./Od./Zi./RTCI ./MTd -I" $ (CCUDA . 

INC PATH)" 

-0 $ (ConfigurationName)N $ (InputName). obj $ (InputFileName? 
@ 如 果 想 使 用 软件 模拟 GPU 运行 (EMU) ,可 新 增 两 个 如 下 的 额外 设置 。 
EmuRelease 模式 : "$(CUDA_BIN_PATH)Nnvcc. exe" -ccbin " $ (VCInstallDir) 

bin" -devi ceemu -c -DWIN32 -D CONSOLE -D MBCS 
-Xcompiler /EHsc./W3./nologo./Wp64./02. 
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/Zi,/MT -1" $ (CUDA_INC_PATH)" 
-o $ (ConfigurationName)\ $ (InputName). obj $ (InputFileName) 

EmuDebug 模式 :"$(CCUDA_BIN_PATH)Nnvcc. exe" -ccbin " $ (VCInstallDir) 

bin" -deviceemu -c -D_DEBUG -DWIN32 -D CONSOLE -D MBCS 
-Xcompiler /EHsc./W3, /nologo./Wp64./Od. 
/Zi,/RTC1,/MTd -I" $ CCUDA INC PATED" 
-o $ (ConfigurationName)A $ (InputName). obj $ (InputFileName? 
© 对 所 有 的 配置 文件 ,在 Custom Build Step 的 Outputs 中 加 入 : 
$ (ConfigurationName) V $ (InputName). obj 
选择 project. fi 8E Ifi; 3€ f£ Properties ,再 选择 Linker。 修 改 所 有 配置 文件 的 设 
置 ,如 下 : 
General/Enable Incremental Linking: No 
General/ Additional Library Directories; $ (CUDA_LIB_PATH) 
Input/ Additional Dependencies; cudart. lib 

2) Linux 操作 系统 

Linux 环境 下 CUDA 的 安装 步骤 与 Windows 下 大 致 相同 。 因 此 ,这 里 只 叙述 其 关 
键 步骤 ,其 余 步 骤 参 考 Windows 下 CUDA 的 安装 。 

(D 安装 CUDA Driver。 在 终端 安装 CUDA 驱动 程序 ,使 用 sh 命令 执行 。 如 何 安装 
NVIDIA 的 Linux 驱动 程序 ,请 参考 NVIDIA Accelerated Linux Driver Set README 
and Installation Guide 或 访问 http://us. download. nvidia. com/XFree86/Linux-x86/ 
1. 0-9755/README/index. html。 安 装 完毕 之 后 ,可 在 Terminal 中 执行 Lnvidia-xconfig 
-query-gpu-info], 来 查看 安装 的 NVIDIA GPU。 运 行 结 果 如 图 3-33 所 示 。 

© 安装 CUDA Toolkit, H sh 命令 执行 NVIDIA CUDA Toolkit 1.1 * x86* 
. runs 

安装 程序 会 要 求 输入 安装 路 径 或 接受 其 默认 值 。 推 荐 以 root 账号 身份 进行 安装 并 
使 用 默认 的 安装 路 径 (/usr/local)。 之 后 ,将 会 以 <CUDA_INSTALL_PATH 帮 代替 实 
际 的 安装 路 径 。 将 CUDA 的 二 进 制 文件 (NVCC) 和 函数 路 径 (libcuda. so) 添 加 到 环境 变 
量 PATH 和 LD_LIBRARY_PATH 中 。 

© 安装 CUDA SDK。 用 sh 命令 执行 NVIDIA_CUDA_SDK_1. 1_Linux. run, 

安装 程序 会 要 求 输入 安装 路 径 或 接受 其 默认 值 , 默 认 的 安装 路 径 为 用 户 的 根 目录 
C/NVIDIA CUDA SDEO, Zi H & -SDK INSTALL PATH 4È E 3c bi ft zd 
路 径 , 在 根 目录 下 的 . bash. profile 中 加 入 如 下 几 行 即 可 : 


PATH= $ PATH:< CUDA INSTALL PATH >/bin 
LD_LIBRARY_PATH = $ LD LIBRARY PATH:«CUDA INSTALL PATH»/lib 


" 


iu 


并 行 计 算 机 及 编程 基础 


export PATH 
export LD LIBRARY PATH 


详细 步骤 可 以 参考 SDK 安装 目录 中 附带 的 帮助 文档 ,文档 的 默认 目录 为 : 

一 \NVIDIR CUDA SDK\doc\CUDA_SDK_release_notes_linux. txt. 

对 CUDA 安装 和 设置 还 存在 疑问 的 读者 ,请 参考 : 

http://blog. csdn. net/OpenHero/archive/2008/11/15/3307166. aspx, 该 网 页 是 本 
节 重 要 参考 文献 之 一 (GPU 高 性 能 运算 之 CUDA》 作 者 赵 开 勇 先 生 的 CSDN 博客 。 其 
中 ,专门 为 CUDA 安装 和 设置 录制 了 一 个 名 为 CUDA easy start up 的 视频 教程 。 该 博客 
还 有 许多 有 助 于 CUDA 程序 员 的 启蒙 文章 和 对 CUDA 技术 的 独到 见解 ,还 可 以 给 注册 
会 员 提供 在 线 答 疑 。 


[rootégaled5 ^] nvidia-xconfig -query-gpu-info 
Nunber of GPUs: 4 


GPU $0: 
Nane 1 GeForce GTX 295 
PCI BusID : PCI:3:0:0 
Number of Display Devices: 0 


GPU £1: 
Nane : GeForce GTX 295 
PCI BusID : PCI:4:0:0 
Number of Display Devices: 1 


Display Device 0 (CRT-1): 
No EDID information available. 


GPU #2: 
Nane : GeForce GTX 295 
PCI BusID : PCI:7:0:0 
Number of Display Devices: 0 


GPU $3: 
Nane : GeForce GTX 295 
PCI BusID : PCI:8:0:0 
Nunber of Display Devices: 0 


[root@eale45 “Jë ~ 


图 3-33 Linux 环境 下 CUDA Driver 的 安装 


3. 测试 安装 


在 Visual Studio 中 新 建 一 个 项 目 ,将 该 项 目的 类 型 选择 为 CUDA (因为 之 前 在 
Visual Studio 环境 中 添加 了 CUDA 的 相应 规则 。 如 果 没 有 该 选项 , 则 需要 重新 检查 
CUDA 安装 与 环境 设置 的 相关 步骤 ) ,如 图 3-34 所 示 。 
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New Project a -—- NM LN 
Project types: Templates: 

4 Visual C++ | Visual Studio in: 
ATL | E CUDAWinApp 
cR | 

My Templates 
General | a h On 
wE | Search Online 
Smart Device 
] Test 
Win32 
| [cupa] 


> Database Projects | 


图 3-34 在 Visual Studio 中 新 建 的 CUDA MA 
如 果 安 装 了 CUDA Windows Application Wizard. 将 会 看 到 如 图 3-35 所 示 的 
界面 。 


CUDA Windows Application Wizard - CUDAWinApp11 L8 jen 


E Welcome to the CUDA Windows Application Wizard 


Overview These are the current project settings: 
Application Settings © Console application. 
Click Finish from any window to accept the current settings. 


[ Net» | | Fnish Cancel 


H 3-35 CUDA Visual Studio Wizard 


在 左 侧 的 Solution Explorer 中 ,右键 单 击 新 建立 的 project, 选择 add— new item, f} 
选择 CUDA ,这 时 在 project 中 就 会 形成 一 个 后 级 名 为 . cu 的 文件 ,如 图 3-36 所 示 。 


E o 
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[27] Solution 'CUDAWinApp3' (1 p. 

图 第 -个 CUDA 程 序 | I 

— CI Header Files | 
C Resource Files 

- 国 Source Files 

[j CUDAcu 
E ReadMett 
口 sample.cu 


图 3-36 Visual Studio 中 的 CUDA 程序 


下 面 ,通过 运行 SDK 中 的 程序 实例 oceanFFT 测试 CUDA 环境 是 否 安装 与 设置 成 
功 。oceanFFT 使 用 FFT 算法 模拟 海平 面 。 

定位 到 如 下 的 路 径 : 

X:\...\ProgramData\NVIDIA Corporation\NVIDIA GPU ComputingSDK\C\src\oceanFFT\ 

其 中 ,X 为 安装 SDK 的 盘 符 。 选 择 使 用 Visual Studio 打开 文件 oceanFFt. sln。 如 
果 SDK 的 版 本 较 低 ,Visual Studio 会 提示 将 程序 的 代码 进行 转换 ,该 转换 过 程 自 动 进行 ， 


无 须 干涉 。 此 时 可 以 看 到 该 程序 的 结构 (其 中 ,. h 为 定义 的 头 文件 ,. cpp 为 封装 的 C 语 
言 包 ,. cu 为 包含 kernel 函数 的 CUDA 文件 ) ,如 图 3-37 Bros o 


Project Build Debug Data Iools Test Analyze Window 
= Win32 


Ele Edit View 

idl-cd-cy Ed dÜÓÜA adÀ| o - 0 AI P Debug 

nA Y NOE X Jem 
-oc v I X oceanFFT kernelcu 

总 | 中 | s ds 

A Solution 'oceanFFT' (1 project 

o (fi oceanFFT 


S- Ey rendercheck 
(8) nvShaderUtils.h 
€] rendercheck gl.cpp 
i8) rendercheck gl.h 

? By se 

D cceanfrag 
L) ecean.vert 
€] oceanFFT.cpp. 
[D eceanFFT. kernel.cu 


Copyright 1993-2009 NVIDIA C 


NVIDIA Corporation and its 1 
proprietary rights in and tc 
any modifications thereto. 

of this software and related 
agreement from NVIDIA Corpor 


reete ter n n d 


4, 


LIII M MH A V n n n 


finclude «cufft.h» 
finclude «math constants.h» 


//Round a / b to nearest higher 
int cuda iDivUp(int a, int b) 


t 


图 3-37 Visual Studio 中 程序 oceanFFT 的 结构 
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其 中 ,后 级 名 为 . cu 的 文件 为 CUDA 程序 文件 。 运 行 debug 执行 该 实例 ,其 执行 结 
果 如 图 3-38 所 示 o 


37 CUDA FFT Ocean Simulation > mim 
Start Page 


3-38 CUDA SDK 中 程序 oceanFFT 的 执行 结果 


在 图 3-38 中 , 左 侧 为 执行 过 程 , 右 侧 为 动态 显示 的 效果 图 (对 海平 面 进 行 模拟 ) 。 

下 面 ,在 Linux 环境 下 执行 SDK 中 的 DeviceQuery, 获 得 进行 CUDA 运算 的 GPU 
的 详细 信息 。 

创建 SDK project 范例 程序 

cd «SDK INSTALL PATH» 

Build: 

一 release fj À "make". 

一 debug 输入 "make dbg - 1". 

一 emurelease 输入 "make emu - 1". 

- emudebug 输入 "make emu - 1 dbg - 1". 

ÍE- SDK. INSTALL. PATH > JA ff. make. 创建 范例 程序 所 使 用 的 公共 工具 
libcutil, libcutil 是 为 了 方便 使 用 而 提供 的 ,不 属于 CUDA 的 一 部 分 , 且 撰 写 的 程序 也 不 
需要 用 到 它 。 

然后 ,执行 二 SDK_INSTALL_PATH 放 /bin/linux32/release/deviceQuery 进行 测 
iX, Mi debug, emurelease, emudebug 等 其 他 目录 为 /bin/linux32/[ debug | emurelease | 
emudebug ]. 


可 以 看 出 ,使 用 CUDA SDK 易于 创建 新 的 CUDA 程序 ,复制 与 修改 CUDA SDK 提 


a 


E 并 行 计算 机 及 编程 基础 
供 的 项 目 template 可 满足 各 种 不 同 的 需求 。 


3.4.3 第 一 个 CUDA 程序 


安装 与 设置 好 CUDA 环境 之 后 ,可 运行 CUDA Wizard 中 自 带 的 一 个 示例 程序 一 一 
helloCUDA ,双击 project 中 的 sample. cu 文件 。 


# include < stdio. h> 

# include < stdlib. h> 

it include < cuda_runtime. h> 

# include < cutil. h> 

/* EMU 模式 下 (以 软件 模拟 方式 运行 ), 因为 设备 为 虚拟 ,初始 化 直接 返回 ture * / 
# if _DEVICE_EMULATION_ 

bool InitCUDA(void) (return true; } 


felse 
bool InitCUDA(void) /* 初始 化 设备 * / 
{ 
int count = 0; 
int i=0; 
cudaGetDeviceCount(&count) ; /* 获取 设备 数目 * / 


if(count ==0) 
{ 
fprintf(stderr, "There is no device. \n"); 
return false; 
} 
for(i=0; i < count; i++) 
{ 
/* 获取 支持 CUDA 的 设备 数目 * / 
cudaDeviceProp prop; 
if(cudaGetDeviceProperties(&prop, i) == cudaSuccess) 
{ 
if(prop. major >= 1) 
{ 
break; 
} 
) 
) 
if(i-- count) 
{ 
fprintf(stderr, "There is no device supporting CUDA. n"); 
return false; 
} 
cudaSetDevice( i); /* 设置 要 使 用 的 设备 * / 
printf("CUDA initialized. Wn"); 


i 
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return true; 


#endif 
_global static void HelloCUDA(char * result, int num) 
{ 

inti-0; 

char p HelloCUDA[] = "Hello CUDA!"; 

for(i-0; i< num; i++) 

{ 

result[i]- p HelloCUDA[i]; 

l 
} 
int main(int argc, char * argv[]) /* 主 程序 * / 
{ 


if(!InitCUDA()) 
{ 
return 0; 
} 
char *device result = 0; 
char host result[12] - (0); 
/* 在 显存 开辟 空间 用 来 存放 结果 * / 
CUDA SAFE CALL(cudaMalloc((void * * ) &device result, sizeof(char) * 11)); 
unsigned int timer - 0; /* 设置 定 计时 器 * / 
CUT SAFE CALL(cutCreateTimer(&timer)); 
CUT SAFE CALL(cutStartTimer(timer)); 
/ * 调用 kernel 函数 ,在 设备 上 执行 */ 
HelloCUDA <<<1, 1, 0>>>(device result, 11); 
CUT CHECK ERROR("Kernel execution failed\n"); 
/* 统计 时 间 , 在 此 对 所 有 线程 进行 同步 操作 * / 
CUDA SAFE CALL(cudaThreadSynchronize()); 
CUT SAFE CALL(cutStopTimer(timer)); 
printf("Processing time: % f (ms) Wn", cutGetTimerValue(timer)); 
CUT SAFE CALL(cutDeleteTimer( timer)); 


CUDA SAFE CALL(cudaMemcpy(&host result, device result, sizeof(char) * 11, 
/* 将 计算 产生 的 结果 拷贝 至 主机 端 主 存 * / 


cudaMemcpyDeviceToHost) ); 
printf(" % s\n", host result); 
CUDA SAFE CALL(cudaFree(device result)); 
CUT EXIT(argc, argv); 


return 0; 


对 该 CUDA 程序 进行 编译 、 连 接 并 运行 ,其 运行 结果 如 下 所 示 : 


/* 定义 kernel 函数 */ 


CUDA initialized. 
Processing time: 1.743265 (ns) 
Hello CUDA? 


Press ENTER to exit... 


L 


" 
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在 上 面 的 CUDA 程序 中 ,黑体 部 分 为 与 CUDA 相关 的 runtime API. kernel 函数 为 
设备 端 运行 的 代码 部 分 ,其 余部 分 为 主机 端 运行 的 代码 部 分 。 

该 CUDA 程序 的 主要 流程 为 : 

* CUDA 初始 化 ”其 中 包括 获取 设备 信息 , 选 定 所 使 用 设备 ; 

* 定义 Kernel KRG 

。 在 设备 端 建立 数据 ; 

。 设置 计时 器 ; 

* 在 设备 端 调用 Kernel KG 

* 将 结果 返回 主机 端 ; 

。 显示 结果 。 

事实 上 ,大 多 数 情 况 下 ,计算 所 需 的 数据 在 主机 端 生 成 。 此 时 ,需要 首先 将 计算 所 需 
数据 拷贝 到 设备 上 ,再 调用 Kernel 函数 。 


3.4.4 CUDA 编译 器 


NVCC 编译 器 根据 配置 编译 CUDA C 代码 ,可 以 生成 三 种 不 同 的 输出 : PTX, 
CUDA 二 进 制 序 列 和 标准 C。NVCC 是 一 种 编译 器 驱动 。 通 过 命令 行 选 项 ,NVCC 可 以 
在 编译 的 不 同 阶段 启动 不 同 的 工具 完成 编译 工作 。 

NVCC 工作 的 大 致 流程 是 : 首先 将 代码 划 IODA 
分 为 Host 端 和 Device 端 部 分 。 其 中 , Host 端 Application 
部 分 由 C/C++ 高 级 编译 器 编译 ; Device 端 部 分 
由 NVCC 编译 成 PTX 中 间 代 码 或 cubin 对 象 ， 
当 用 户 使 用 CUDA 驱动 API 时 ,PTX 中 间 代 PTX Code 


码 或 cubin 对 象 就 可 直接 被 设备 执行 。 其 过 程 EON 
如 图 3-39 所 示 。 < CUDA Runtimes 、 Binary 
NVCC 编译 器 的 前 端 按照 C++ 的 语法 规则 \ 


处 理 CUDA 源 文件 。 主 机 代码 完全 支持 C++。 LC] orzo | [oweronus 
但 是 ,设备 代码 只 支持 C++ 的 C 子 集 ,C++ 的 一 图 3-39 NVCC 编译 器 的 流程 示意 图 
些 特定 功能 (比如 类 、 继 承 等 ) 不 被 支持 。 由 于 使 用 了 C++ 语法 规则 的 原因 , 空 指针 (比如 
malloc() 函数 调用 返回 的 值 ) 未 经 过 类 型 的 强制 转换 ,因此 不 能 赋值 给 非 空 指针 。 
NVCC 引信 了 两 个 编译 指令 : noinling 与 #pragma unroll, H}, 
。 _ noinline ”指令 表示 在 默认 的 情况 下 device — 函数 始终 为 内 联 函 数 。 但 是 ， 
__ noinline _ 函数 限定 符 可 用 于 编译 器 提示 以 尽量 不 内 联 函 数 。 函 数 体 必须 位 
于 调用 该 函数 的 同一 文件 中 。 对 于 带 有 指针 参数 的 函数 和 具有 大 型 参数 列表 的 
函数 ,编译 器 将 忽略 “noinline ”限定 符 。 


C/C++ 
CPU Code 
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* $ pragma unroll 指令 可 用 于 控制 任何 给 定 循 环 的 展开 。 它 必须 放置 在 循环 之 
前 ,并 只 应 用 于 该 循环 。 它 后 面 可 以 跟 一 个 数字 ,用 来 指定 循环 必须 展开 的 次 数 。 


3.4.5 CUDA 常用 API 


关于 CUDA 常用 API( 编 程 接口 ) 的 详细 信息 可 以 参考 NVIDIA CUDA 的 用 户 手册 。 

使 用 CUDA API 可 使 熟悉 C 编程 语言 的 程序 员 很 容易 地 编写 在 设备 上 执行 的 程序 。 
它 包 括 C 语言 的 最 小 扩展 集合 ,允许 程序 员 确定 需要 在 设备 上 执行 的 部 分 源 代 码 。 

CUDA 的 运行 时 库 可 被 划分 为 ; 

* 主机 组 件 ”在 主机 上 运行 ,提供 函数 以 控制 并 访问 主机 中 一 个 或 多 个 计算 设备 ; 

。 设备 组 件 ”在 设备 上 运行 ,提供 特定 于 设备 的 函数 ; 

。 通用 组 件 “提供 内 置 的 向 量 类 型 和 在 主机 与 设备 代码 中 都 支持 的 C 标准 库 子 集 。 

只 有 那些 支持 在 设备 上 运行 的 C 标准 库 中 的 函数 才 是 公共 运行 时 (runtime) 提 供 的 
函数 。 

C 编程 语言 的 扩展 有 以 下 几 部 分 。 


1. 函数 类 型 限定 符 


用 于 指定 函数 是 在 主机 上 还 是 在 设备 上 执行 或 从 主机 还 是 设备 中 调用 。 主 要 有 以 下 
三 种 限定 符 。 

(D _ device _ 限定 符 : 申明 函数 在 设备 上 执行 ,只 能 从 设备 中 调用 。 

C global _ 限定 符 : 将 函数 声明 为 内 核 函数 ,在 设备 上 执行 ,只 能 从 主机 中 调用 。 

G host _ 限定 符 : 声明 函数 在 主机 上 执行 ,只 能 从 主机 中 调用 。 它 等 同 于 仅 使 用 
. host _ 声明 的 函数 或 不 使 用 _ host”、_device X global _ 限 定 符 的 任意 一 个 声 
明 函 数 。 不 管 是 哪 一 种 情况 ,该 函数 仅 为 主机 编译 。 _ host _ 限定 符 还 可 以 与 _ device — 
限定 符 结合 使 用 ,此 时 ,该 函数 同时 为 主机 和 设备 编译 。 

Hp, device ”和 global ”本 数 不 支持 迭代 ,不 能 在 函数 体内 声明 静态 变量 , 参 
数 不 可 变 ; _ device _ 函数 不 能 取 其 地 址 ， global _ 函数 的 函数 指针 则 被 支持 ; 
. global 和 host 限定 符 不 能 一 起 使 用 ; — global — 函数 必须 具有 void 返回 类 型 ， 
XI. global ”函数 的 任何 调用 必须 指定 其 执行 设置 ;global ”函数 的 参数 通过 共享 内 
存 传递 给 设备 并 被 限定 为 256 FW. 


2. 变量 类 型 限定 符 


用 于 指定 变量 在 设备 上 的 内 存 位置 。 主 要 有 以 下 三 种 限定 符 。 
(D device ”限定 符 : 声明 驻 留 在 设备 上 的 变量 。 
在 其 他 类 型 的 变量 限定 符 中 ,至 多 有 一 个 可 与 ”device “一 起 使 用 ,以 进一步 指定 变 
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量 属 于 哪个 内 存 空间 。 如 果 其 中 任何 一 个 都 不 出 现 , 则 该 变量 驻 留 在 全 局 内 存 空间 中 ,有 具 
有 应 用 程序 的 生命 期 ,可 通过 运行 时 库 从 grid 的 所 有 线程 中 和 从 主机 中 访问 。 

© constant 限定 符 : 可 与 ”device 一 起 使 用 ,声明 变量 。 _ constant ”限定 
符 指 定 驻 留 在 常量 内 存 空 间 中 的 变量 ,具有 应 用 程序 的 生命 期 ,可 通过 运行 时 库 从 grid 
的 所 有 线程 中 和 从 主机 中 访问 。 

G shared 限定 符 : n|5j device 一 起 使 用 ,声明 变量 。 _ shared ”限定 符 指 
定 驻 留 在 线程 块 的 共享 内 存 空间 中 的 变量 ,具有 bolck 的 生命 期 , 仅 可 从 block 内 所 有 的 
线程 中 访问 。 

以 _ shared _ 方式 声名 的 线程 中 的 共享 变量 具有 完全 顺序 一 致 性 ,但 是 在 线程 中 
kernel 并 不 一 定 会 按照 统一 的 线性 顺序 执行 。 仅 在 执行 同步 语句 syncthreads() 之 后 ， 
来 自 其 他 线程 的 写 入 才能 保证 可 见 。 

数组 的 大 小 在 启动 时 被 确定 。 以 上 述 三 种 方式 声明 的 所 有 变量 在 内 存 中 从 同一 地 址 
开始 , 故 数组 中 的 变量 必须 通过 偏 移 量 进行 管理 。 这 些 限定 符 不 允许 用 于 struct 和 
union 成 员 、 形 参 以 及 在 主机 上 执行 的 函数 内 部 的 本 地 变量 。 

HP, shared HD constant ”变量 已 经 隐 含 了 静态 存储 ; ^ device . shared - 
和 __ constant ”变量 不 能 使 用 extern 关键 字 定 义 为 外 部 变量 ; _ device — MI — constant 
变量 仅 允许 用 于 文件 范围 ;， — constant ”变量 不 能 从 设备 中 赋值 ,只 能 从 主机 中 通过 主 
机 运行 时 函数 来 赋值 。 

3. 执行 设置 

用 于 指定 如 何 从 主机 中 的 设备 上 执行 内 核 。 

Xt global 类 型 函数 的 任何 调用 必须 为 该 调用 指定 执行 设置 。 执 行 设 置 定义 将 用 
于 在 设备 上 执行 函数 的 grid 和 block 的 维度 以 及 相关 联 的 流 。 通 过 在 函数 名 称 和 圆 括号 
括 起 的 参数 列表 之 间 插 入 二 < 二 Dg. Db. Ns. S 二 >> 形 式 的 表达 式 , 就 可 定义 执行 设 
置 ,其 中 : 

* Dg 是 类 型 dim3 ,用 于 指定 grid 的 维度 和 大 小 。 因 此 ,Dg. x * Dg. y 等 于 要 启动 的 

block 数 ; Dg. z 未 使用。 

* Db 是 类 型 dim3 ,用 于 指定 每 个 block 的 维度 和 大 小 。 因 此 ,Dg. x * Dg. y * Db.z 

等 于 每 个 block 的 线程 数 。 

* Ns 是 类 型 size_t, 用 于 指定 为 该 调用 按 block 动态 分 配 的 共享 内 存 中 的 字 节 数 以 
及 静态 分 配 的 内 存 。 此 动态 分 配 的 内 存 由 声明 为 外 部 数组 的 任何 一 个 变量 使 用 。 
Ns 是 默认 值 为 0 的 可 选 参数 。 

* S 是 类 型 cudaStream_t, 用 于 指定 相关 的 流 。S 是 默认 值 为 0 的 可 选 参数 。 
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4. 四 个 内 置 变量 


用 于 指定 grid 和 block 的 维度 ,以 及 block 和 线程 索引 。 
gridDim: 此 变量 的 类 型 为 dim3, 包 含 grid 的 维度 。 
blockIdx; 此 变量 的 类 型 为 uint3 ,包含 grid 中 的 block 索引 。 
blockDim: 此 变量 的 类 型 为 dim3, 包 含 block 的 维度 。 
threadId; 此 变量 的 类 型 为 uint3 ,包含 block 中 的 线程 索引 。 


3.4.6 CUDA 编程 模型 


CUDA 编程 模型 将 CPU 作为 主机 ,GPU 作为 协 处 理 器 。 在 一 个 系统 中 ,可 以 存在 
一 个 主机 和 若干 个 设备 。GPU 负责 进行 逻辑 性 强 的 事务 处 理 和 串 行 计算 ,GPU 则 负责 
执行 高 度 线程 化 的 并 行 任务 。CPU 与 GPU 各 自 拥 有 相互 独立 的 存储 器 地 址 空间 ,CPU 
拥有 主机 端的 内 存 ,GPU 拥有 设备 端的 显存 。CUDA 对 内 存 的 操作 与 一 般 的 C 程序 基 
本 相同 ,但 是 增加 了 一 种 新 的 pinned memory。 显 存 则 需要 调用 CUDA API 中 的 存储 器 
管理 函数 来 操作 ,这 些 管 理 操 作 包 括 开辟 、 释 放 和 初始 化 显存 空间 ,以 及 在 主机 端 和 设备 
端 之 间 进 行 数据 传输 等 。 

内 核 函 数 (kernel) 以 线程 网 格 (grid) 的 形式 进行 组 织 ,每 个 grid 由 若干 个 线程 块 
(block) 组 成 ,而 每 个 线程 块 又 由 若干 个 线程 组 成 。 实 际 上 ,kernel 是 以 block 为 单位 进行 
执行 的 。 各 个 block 并 行 执行 ,之 间 无 法 通信 ,也 没有 执行 顺序 ,而 thread 则 可 以 通过 共 
享 内 存 (shared memory) 进 行 通 信 。 图 3-40 是 CUDA 的 编程 模型 示意 图 。 


GPU/HOST GPU/DEVICE 
Grid 0 
Kernel 1 H - Reogk 
z | | Thread(0.4) 
= | 
Kernel 2 H1 "| 
— | 


图 3-40 CUDA 的 编程 模型 示意 图 


GPU 不 能 直接 存 取 主 存 ,只 能 存 取 显存 。 因 此 ,需要 将 数据 从 主 存 先 复制 到 显存 中 ， 
进行 运算 之 后 ,再 将 运算 的 结果 从 显存 复制 到 主 存 中 。 这 些 复制 动作 受 限于 PCI 
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Express 的 速度 。 使 用 PCI Express x16 时 ,PCI Express 1. 0 可 以 提供 双向 各 4GB/s 的 
带宽 ,而 PCI Express 2. 0 则 可 提供 双向 各 SGB/s 的 带宽 。 

从 一 般 的 内 存 复制 数据 到 显存 的 时 候 ,由 于 一 般 的 内 存 可 能 随时 会 被 操作 系统 移动 ， 
因此 CUDA 会 先 将 数据 复制 到 一 块 内 部 的 内 存 之 后 , 才 会 利用 DMA 将 数据 复制 到 显存 
中 。 如 果 想 避免 这 个 重复 的 复制 动作 ,可 以 使 用 cudaMallocHost 方式 ,在 主 存 中 取得 一 
块 页 锁定 的 内 存 。 不 过 ,如 果 要 求 的 页 锁定 内 存 的 量 太 大 ,将 会 影响 到 操作 系统 对 内 存 的 
管理 ,可 能 会 减低 系统 的 效率 。 

一 旦 确定 了 程序 中 的 并 行 部 分 ,就 可 以 考虑 把 这 部 分 计算 工作 交 给 GPU, 称 为 
kernel PAK, kernel 函数 必须 通过 global — 函数 类 型 限定 符 进 行 定义 ,并 且 只 能 在 主 
机 端 代码 中 被 调用 。 一 个 kernel 函数 并 不 是 一 个 完整 的 程序 ,而 是 整个 CUDA 程序 中 可 以 
被 并 行 执行 的 部 分 。 将 按照 程序 中 相应 语句 的 顺序 执行 这 些 部 分 ,从 而 满足 顺序 一 致 性 。 

在 执行 CUDA 程序 的 时 候 , 每 个 stream processor( 流 处 理 器 ) 对 应 一 个 thread, 每 个 
multiprocessor (多 处 理 器 ) 则 对 应 一 个 block, 每 个 multiprocessor 有 8 个 stream 
processor。 在 执行 程序 过 程 中 ,CUDA 以 warp 为 单位 ,一 个 warp 中 有 32 个 thread, 被 
分 成 两 组 half-warp( 各 有 16 个 thread) 。 由 于 multiprocessor 中 并 没有 太 多 别 的 存储 器 
内 存 , 因 此 每 个 thread 的 状态 都 是 直接 保存 在 multiprocessor 的 寄存 器 中 。 所 以 ,如果 在 
一 个 multiprocessor 中 同时 执行 的 thread 数 越 多 , 则 需要 越 多 的 寄存 器 空间 。 


3.4.7 CUDA 存储 器 模型 


CUDA 规定 了 多 级 的 存储 模型 ,使 得 CUDA 程序 中 线程 的 运行 更 加 高 效 . 灵 活 。 每 
个 thread 拥有 私有 存储 器 .寄存 器 和 局 部 存储 器 ,每 个 block 拥有 一 个 共享 存储 器 。 除 此 
之 外 ,还 有 两 种 可 被 所 有 线程 访问 的 只 读 存 储 器 : 常数 存储 器 (constant memory) 和 纹理 
存储 器 (texture memory) 。 它 们 分 别 为 不 同 的 应 用 进行 了 优化 。 另 外 ,pinned memory 
是 在 主机 端 主 存 中 开辟 的 一 部 分 页 锁定 内 存 。 表 3-11 给 出 了 各 种 存储 器 所 在 位 置 .缓存 
情况 与 访问 权限 。 

其 中 ,所 有 的 SM(Stream Multiprocessor) 共 享 全 局 存储 器 ,每 个 SM 拥有 自己 的 共 
享 存储 器 。 指 令 单元 每 发 射 一 条 指令 ,片上 的 8 个 流 处 理 器 就 同时 执行 这 条 指令 ,而 每 个 
流 处 理 器 拥有 一 块 寄存 器 。 图 3-41 为 CUDA 存储 器 模型 的 组 织 结构 图 。 


表 3-11 各 级 存储 器 比较 


存 储 器 t E 是 否 拥有 缓存 访问 权限 
Tegister KA N/A device 可 读 写 
local memory 板 载 显存 无 device 可 读 写 


shared memory Hn N/A device 可 读 写 
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ET 
存 储 器 位 E 是 否 拥有 缓存 访问 权限 
constant memory 板 载 显存 有 device 可 读 ,host 可 读 写 
textrue memory 板 载 显存 有 device 可 读 ,host 可 读 写 
global memory 板 载 显存 无 device 可 读 ,host 可 读 写 
host memory Host 内 存 无 host 可 读 写 
pinned memory Host 内 存 无 host 可 读 写 
SIMD Multiprocessor n 


SIMD Multiprocessor 2 
SIMD Multiprocessor 1 
Shared Memory 


Registers| l Registers, i Registers| 
SP1 SP2 ] … SP8 
Hi LH BE 
| | Global Memory | 
| 


Constant Memory 


Texture Memory 


图 3-41 CUDA 存储 器 模型 的 组 织 结构 图 


3.4.8 编程 实例 的 运行 .分 析 与 优化 


在 了 解 CUDA 基础 知识 之 后 ,本 节 将 使 用 一 个 实际 的 程序 进行 编程 实践 。 
前 面 介绍 的 Hello CUDA! 是 Visual Studio Wizard 自 带 的 一 个 示例 程序 ,是 CUDA 
的 入 门 程序 ,并 无 多 大 实用 价值 。 因 此 ,在 这 里 给 出 一 个 有 实用 价值 的 程序 。 为 了 与 后 续 
章节 Cell BE 部 分 的 实例 程序 相 一 致 ,同时 也 为 了 介绍 CUDA 相关 的 一 些 性 质 ,在 这 里 
选用 的 实例 程序 为 矩阵 乘法 。 该 实例 参考 自 (深入 浅 出 谈 CUDA) 一 文 , 有 兴趣 的 读者 可 
以 通读 此 文 的 其 他 部 分 以 获取 更 深入 的 了 解 。 
为 简单 起 见 ,这 里 以 方 阵 为 例 。 假 设 , 有 两 个 矩阵 4 和 B, 使 用 如 下 代码 计算 AXB =C: 
for(i=0; i< n; i++) 
( 
for(j=0; j < n; j+) 
( 
c[i][j]-0; 
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for(k-0; k«n; k++) 
{ 
C[il[j] += A[i][k] * B[k][j]; 


) 
先 准 备 好 产生 数据 OE CUDA 等 工作 。 主 函数 代码 如 下 : 


int main() 
jl 
float*a, *b, *c, *d; 
int n- 1000; 
if(!InitCUDA()) 
return 0; 
a= (float * ) nalloc(sizeof(float) 
b= (float * ) nalloc(sizeof(float) 
c= (float * ) malloc(sizeof(float) 
d= (float * ) nalloc(sizeof(float) 
srand(0); 
matgen(a, n, n); 
matgen(b, n, n); 
clock t time = matmultCUDA(a, n, b, n, C, n, n); 
matmult(a, n, b, n, d, n, n); 
compare mat(c, n, d, n, n); 
double sec = (double) time / CLOCKS PER SEC; 
printf("Time used: $.2f (*.21f GFLOPS)W", sec, 2.0 * n * n * n/ (sec * 1E9)); 
return 0; 


* 


s555 


* n); 
* n); 


* 


* 


* 


1 
/* CUDA 的 初始 化 函数 InitCUDA() */ 
bool InitCUDA() 
{ 
int count; 
cudaGetDeviceCount (&count) ; 
if(count == 0) 
t 
fprintf(stderr, "There is no device. Wn"); 
return false; 
i 
inti; 
for(i-0; i < count; i++) 
t 
cudaDeviceProp prop; 
if(cudaGetDeviceProperties(&prop, i) = 
{ 
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if(prop. major >= 1) 
{ 
break; 
} 
} 
) 


if(i-- count) 


t 
fprintf(stderr, "There is no device supporting CUDA 1.x. Wn"); 
return false; 

) 

cudaSetDevice(i); 


return true; 
} 
/* 产生 矩阵 的 函数 matgen */ 
void matgen(float * a, int lda, int n) 
{ 
int i, j; 
for(i-0; i«n; i++) 
i 
for(j=0; j<n; j**) 
{ 
a[i * lda+j] = (float) rand() / RAND_MAX + (float) rand() / (RAND MAX * RAND MAX); 
) 
} 


j 
/* 函数 matmult 利用 随机 数 生成 器 将 矩阵 全 填 为 0 ~ 1 之 间 的 数字 


* 由 于 在 C 语 言 中 无 法 声明 可 变 大 小 的 二 维和 矩阵 , 所 以 这 里 使 用 ix lda+ j 的 方式 


* 进行 矩阵 乘法 */ 
void matmult(const float * a, int lda, const float * b, int ldb, float * c, int ldc, int n) 


{ 
int i, j, k; 
for(i-0; i<n; i++) 
t 
for(j= 0; j<n; j++) 
{ 
double t= 0; 
for(k=0; k<n; k++) 
{ 
t*-a[i * lda+k] * b[k * ldb+j]; 
c[i*l1dc*j]-t; 


a 


E 并 行 计 算 机 及 编程 基础 


j 
/* 函数 compare mat 在 CPU 上 进行 矩阵 乘法 ,用 于 验证 答案 正确 与 否 

* 它 使 用 双 精 度 来 存储 中 间 计 算 结 果 , 以 提高 精确 度 . 

* 计算 两 个 矩阵 的 最 大 相对 误差 和 平均 相对 误差 ,并 将 结果 印 出 来 */ 
void compare mat(const float * a, int lda, const float * b, int ldb, int n) 
t 

float max err = 0; 
float average err = 0; 
int i, j; 
for(i-0; i«n; i++) 
{ 
for(j=0; j<n; j**) 
{ 
if(b[ix ldb+j] !=0) 
{ 
float err = fabs( (a[i * lda*j] - b[i * ldb+j]) / b[i* ldb+ j]); 
if(max_err < err) max_err = err; average_err += err; 


) 
} 


printf("Max error: %g Average error: %g\n",max err, average err / (n * n)); 


i 


/* CUDA 的 矩阵 乘法 的 部 分 : 函数 matmultCUDA 
* 该 函数 在 显存 中 设置 存放 和 矩阵 的 内 存 , 然 后 把 主 存 中 的 矩阵 数据 复制 到 显存 中 
* 这 里 ,使 用 一 个 新 的 cudaMencpy2D 函数 ,用 来 复制 二 维 数组 ,可 以 指定 数组 的 pitch 
* 这 样 ,调用 一 次 函数 就 可 完成 矩阵 数据 从 主 存 到 显存 的 复制 */ 
# define NUM THREADS 256 
clock t matmultCUDA(const float * a, int lda, const float * b, int ldb, float * c, int 
ldc, int n) 
{ 
float *ac, *bc, *cc; 
clock t start, end; 
start = clock(); 
cudaMalloc((void** ) &ac, sizeof(float) * n * n); 
cudaMalloc((void** ) &bc, sizeof(float) * n * n); 
cudaMalloc((void** ) &cc, sizeof(float) * n * n); 
cudaMemcpy2D(ac, sizeof(float) * n, a, sizeof(float) * lda, sizeof(float) * n, n, 
cudaMemcpyHostToDevice); 
cudaMemcpy2D(bc, sizeof(float) * n, b, sizeof(float) * ldb, sizeof(float) * n, n, 
cudaMencpyHostToDevice) ; 
int blocks = (n+ NUM THREADS 1) / NUM THREADS; matMultCUDA«««blocks * n, NUM THREADS 
>>> (ac, n, bc, n, cc, n, n); cudaMemcpy2D(c, sizeof(float) * ldc, cc, sizeof(float) * 


n, sizeof(float) * n, n, 


第 3 章 ”并 行 编程 模型 与 语言 


cudaMemcpyDeviceToHost); 
cudaFree(ac); 
cudaFree(bc); 
cudaFree(cc); 

end = clock(); 

return end - start; 


) 


/ * 函数 matMultCUDA 是 完成 计算 的 kernel 函数 
* 由 bid 和 tid 计算 出 该 thread 需要 计算 的 row 和 column, 在 判断 row 和 column 
* 在 范围 内 之 后 ,进行 矩阵 乘法 计算 ,并 将 计算 结果 写 到 矩阵 c 中 */ 
. global static void matMultCUDA(const float * a, size t lda, const float * b, size t 
ldb, float* c, size t ldc, int n) 
{ 
const int tid = threadIdx. x; 
const int bid = blockIdx. x; 
const int idx- bid * blockDim.x * tid; 
const int row = idx / n; const int column = idx & n; 


inti; 
if(row « n && column « n) 
{ 

floatt-0; 


for(i=0; i<n; i++) 
{ 

t*-a[row * lda+i] * b[i * ldb+column]; 
) 


c[row * ldc + column] = t; 


} 
在 GeForce 8800 GT 上 ,该 程序 的 实际 执行 结果 如 下 所 示 : 


CUDA initialized. 
Max error: 2. 01484e-006 Average error: 3. 36637e-007 Time used: 1. 1560 
Press ENTER to exit... 


从 实际 执行 结果 中 可 以 看 出 两 个 明显 的 问题 : 

。 执行 效率 相当 低 ; 

。 最 大 相对 误差 偏 高 。 

计算 结果 的 相对 误差 偏 高 的 原因 是 : 在 CPU 上 进行 计算 时 ,使 用 了 双 精 度 ( 即 64 位 
浮 点 数 ) ,而 在 GPU 上 则 只 能 使 用 float(32 位 浮 点 数 )。 在 对 大 量 数据 进行 累加 的 过 程 
中 ,由 于 累加 结果 可 能 迅速 变 大 ,因此 后 面 的 数据 很 容易 被 舍 去 过 多 的 位 数 。 由 于 ,在 进 
行 加 \ 减 . 乘 时 ,CUDA 的 浮 点 数 运算 符合 IEEE 754 规定 的 精度 ,因此 ,可 以 利用 Kahan's 
Summation Formula 提高 计算 的 精度 。 为 此 ,将 相应 代码 修改 为 : 


" 
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if(row < n && column < n) 
{ 
floatt-0; float y= 0; 
for(i-0; i<n; i++) 
{ 
float r; y-=a[row * lda+i] * b[i* ldb+ column]; 
r-t-y; y=(r-t)+y; t=r; 


i 
执行 相应 修改 之 后 的 程序 ,其 结果 如 下 所 示 + 


CUDA initialized. 
Max error: 1. 19209e-007 Average error: 4. 22751e-008 Time used: 1. 1670 
Press ENTER to exit... 


从 该 计算 结果 来 看 ,计算 结果 的 相对 误差 已 有 了 很 大 的 改善 ,但 执行 效率 并 无 变化 。 
由 于 Kahan's Summation Formula 的 计算 量变 大 ,但 是 执行 效率 却 有 所 降低 ,由 此 ,可 以 
看 出 该 kernel 函数 的 主要 瓶颈 在 于 内 存 的 存 取 , 因 为 大 量 的 内 存 读 取 是 重复 的 。 

例如 ,a 的 一 个 row 在 每 次 进行 计算 时 都 被 重复 读 人 ,这 是 相当 浪费 的 。 采 用 这 样 的 
计算 方式 ,总 共 需 要 读 取 2Xm 次 内 存 。 如 果 让 一 个 row 只 需要 读 入 一 次 的 话 , 则 可 将 内 
存 读 取 次 数 减 少 到 为 十 n? 次 。 

可 以 利用 共享 内 存 来 存储 每 个 row 的 数据 。 不 过 ,因为 只 有 同一 个 block 的 thread 
可 以 共享 shared memory, 因 此 一 个 row 只 能 由 同一 个 block 的 thread 进行 计算 。 另 外 ， 
也 需要 能 存放 整个 row 的 shared memory。 
因此 ,可 将 调用 kernel 函数 的 部 分 修改 为 : 
matMultCUDA <<< n, NUM THREADS, sizeof(float) * n>>> (ac, n, bc, n, cc, n, n); 
kernel 函数 的 部 分 则 被 修改 为 : 
. global static void matMultCUDA(const float * a, size t lda, const float * b, size t 
ldb, float* c, size t ldc, int n) 
t 


extern shared float data[]; 
const int tid- threadIdx.x; 
const int row = blockldx. x; 
int i, j; 
for(i- tid; i<n; i+= blockDim.x) 
t 
data[i]- a[row* lda* i]; 
} 
. Syncthreads(); 
for(j- tid; j<n; j *- blockDim. x) 
t 
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floatt-0; 
float y= 0; 
for(i-0; i<n; i++) 
{ 
float r; y- = data[i] * b[i* ldb+ j]; 
Eat- y yc(r-t)*y; t^r; 
} 
c[row * ldc+j]=t; 
} 
i 
首先 把 整个 row BEA shared memory 中 ,之 后 进行 计算 。 一 个 row 只 由 一 个 block 
计算 。 其 执行 结果 如 下 所 示 : 
CUDA initialized. 


Max error: 1. 19209e-007 Average error: 4. 22751e-008 Time used: 0. 4220 
Press ENTER to exit... 


可 以 看 出 ,计算 的 结果 没有 改变 ,但 程序 的 执行 速度 却 提高 了 一 倍 以 上 。 然 而 ,与 
GeForce 8800 GT 在 理论 上 拥有 超过 300GFLOPS 的 运算 性 能 相 比 ,执行 效率 仍 不 尽 理 
想 (即使 把 Kahan's Summation Formula 所 需 的 额外 运算 考虑 进去 ,这 样 的 执行 效率 连理 
论 最 大 值 的 十 分 之 一 都 不 到 ) ,其 原因 是 对 内 存 的 存 取 次 数 仍然 太 多 了 。 虽 然 现 在 a 的 
row 数据 已 不 再 需要 重复 读 取 ,但 是 矩阵 b 的 column 数据 仍然 被 重复 读 取 。 

存在 的 另 一 问题 并 不 明显 : 对 矩阵 B 的 读 取 , 虽 然 看 起 来 不 连续 但 实际 上 它 是 连续 
的 。 这 是 因为 不 同 的 thread 会 读 取 不 同 的 column, 因 此 将 每 个 thread 同时 读 取 的 各 个 
column 加 起 来 ,就 是 一 个 连续 的 内 存 块 。 那 为 什么 执行 效率 仍然 不 佳 呢 ? 这 是 因为 ， 
GPU 内 存 控制 器 从 某 个 固定 的 倍数 地 址 (例如 16 的 倍数 ) 开 始 读 取 数据 才 会 获得 最 高 的 
效率 。 由 于 矩阵 大 小 并 不 是 16 的 倍数 (在 该 实例 中 ,使 用 的 是 1000X1000 的 方 矩 ), 所 以 
导致 程序 的 执行 效率 不 佳 。 

为 了 解决 上 述 问题 ,可 在 cudaMalloc 时 进行 稍微 的 修改 ,让 宽度 变 成 适当 的 倍数 即 
可 。 然 而 ,到 底 多 少 是 适当 的 倍数 呢 ? CUDA 提供 的 函数 cudaMallocPitch 能 够 自动 以 最 
佳 的 倍数 配置 内 存 。 因 此 ,可 将 该 实例 程序 中 的 cudaMalloc 部 分 修改 为 : 


size t pitch a, pitch b, pitch c; 

cudaMallocPitch((void* * ) &ac, &pitch a, sizeof(float) * n, n); 

cudaMallocPitch((void ** ) &bc, &pitch b, sizeof(float) * n, n); 

cudaMallocPitch((void * * ) &cc, &pitch c, sizeof(float) * n, n); 

函数 cudaMallocPitch 将 以 适当 的 倍数 配置 内 存 ,并 把 配置 的 宽度 传 回 。 该 宽度 将 在 
矩阵 被 复制 到 显存 时 使 用 : 


cudaMemcpy2D(ac, pitch a, a, sizeof(float) * lda, sizeof(float) * n, 
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n, cudaMemcpyHostToDevice); 
cudaMemcpy2D(bc , pitch b, b, sizeof(float) * ldb, sizeof(float) * n, 
n, cudaMemcpyHostToDevice) ; 


调用 kernel 函数 的 部 分 也 需要 进行 相应 的 修改 : 


matMultCUDA««« n, NUM THREADS, sizeof(float) * n»»» (ac, pitch a / sizeof(float), bc, 
pitch b / sizeof(float), cc, pitch c / sizeof(float), n); 


同样 地 ,将 计算 结果 复制 回 主 存 时 ,也 要 使 用 传 回 的 宽度 值 : 


cudaMemcpy2D(c, sizeof(float) * ldc, cc, pitch c, sizeof(float) * n, n, 
cudaMemcpyDev iceToHost ) ; 
经 过 上 述 修改 之 后 ,实例 程序 的 执行 结果 如 下 所 示 : 


CUDA initialized. 
Max error: 1. 19209e-007 Average error: 4. 22751e-008 Time used: 0. 1250 
Press ENTER to exit... 


可 以 看 出 ,实例 程序 的 执行 速度 又 提高 了 三 倍 以 上 ,而 这 仅 需 要 稍稍 修改 内 存 的 配置 
方式 。 虽 然 执行 速度 得 到 进一步 提高 ,但 是 与 前 面 提 到 的 理论 值 仍 有 相当 的 差距 。 这 是 
因为 仍 需 要 六 十 n? 次 内 存 读 取 和 nm? 次 内 存 写 人 。 由 于 "一 1000, 该 实例 程序 的 每 个 矩阵 
元 素 的 大 小 是 32 位 ,所 以 总 共 的 内 存 存 取 数 据 量 约 为 4GB, 除 以 实际 执行 的 时 间 
0. 125s, 得 到 的 带宽 约 为 32GB/s, 这 已 比较 接近 GeForce 8800GT 显存 的 带宽 。 由 于 该 
实例 程序 在 计算 花费 时 间 的 时 候 ,把 配置 内 存 以 及 数据 复制 等 也 计算 在 内 ,因此 实际 上 花 
费 在 kernel 函数 上 的 时 间 应 更 短 。 因 此 ,可 以 看 出 ,该 实例 程序 的 执行 效率 受 限 于 内 存 
带宽 。 

为 了 进一步 提高 该 实例 程序 的 执行 效率 , 需 进一步 降低 内 存 带 宽 的 使 用 。 虽然 ,矩阵 
A 的 存 取 次 数 已 降 至 最 低 ,但 矩阵 B 的 存 取 次 数 并 没有 减少 。 这 是 因为 只 将 矩阵 A 的 
row 数据 加 载 到 了 shared memory 中 ,但 矩阵 B 的 column 却 还 是 被 重复 使 用 ,应 该 避免 
EPE B 的 column 数据 的 重复 加 载 。 不 过 ,由 于 和 矩阵 B 的 column 的 使 用 时 机 与 矩阵 A 的 
row 的 使 用 时 机 不 同 , 所 以 并 不 能 直接 这 样 做 。 

其 解决 方法 是 将 整个 矩阵 乘法 分 割 为 很 多 小 矩阵 的 乘法 。 由 于 ,目前 CUDA 每 个 
block 的 thread 数目 最 多 为 512 ,因此 &— 16 Ce 是 分 隔 出 的 block 的 规模 ) 似 乎 是 一 个 相 
当 理想 的 数字 ( 共 256 个 thread? 。 因 此 ,对 一 个 2 一 1000 的 方 矩 来 说 ,可 将 内 存 存 取 量 减 
少 到 约 500MB, 也 就 是 上 面 存 取 量 的 1/8( 即 500MB/4GB)。 理 论 上 ,这 样 做 可 使 效率 提 
高 八 倍 。 

让 每 个 block 有 16X16 个 thread. HE & sz (n/16) X (n/16) ^ block。 将 调用 kernel 
函数 的 部 分 修改 为 : 
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int bx= (n+ BLOCK_SIZE — 1) / BLOCK SIZE; dim3 blocks(bx, bx); 

dim3 threads(BLOCK SIZE, BLOCK SIZE); 

matMultCUDA««« blocks, threads >>> (ac, pitch a / sizeof (float), bc, pitch b / sizeof 
(float), cc, pitch c / sizeof(float), n); 


其 中 ,BLOCK_SIZE 被 定义 为 16。dim3 是 CUDA 的 一 种 数据 形态 ,表示 它 是 一 个 
3D 向 量 。 这 里 ,通过 dim3 建立 16X16 个 thread 的 block fl (n/16) X (n/16) ^ 
block, 

Kernel 函数 的 部 分 被 修改 为 : 


. global . static void matMultCUDA(const float * a, size t lda, const float * b, size t 
ldb, float* c, size t ldc, int n) 
t 
. Shared float matA[BLOCK SIZE][BLOCK SIZE]; 
. shared float matB[BLOCK SIZE][BLOCK SIZE]; 
const int tidc - threadIdx. x; 
const int tidr = threadIdx. y; 
const int bidc = blockIdx.x * BLOCK SIZE; 
const int bidr = blockldx.y * BLOCK SIZE; 
int i, j; 
float results - 0; 
float comp = 0; 
for(j=0; j<n; j *- BLOCK SIZE) 
1 
if(tidr + bidr <n && tidc + j«n) 
{ 
matA[tidr][tidc] = a[ (tidr + bidr) * lda+ tidc+ j]; 


matA[tidr][tidc] = 0; 
} 
if(tidr+ j < n && tidc + bidc <n) 
{ 
matB[tidr][tidc]- b[(tidr +j) * ldb+ tidc + bidc]; 


} 
else 
{ 
matB[tidr][tidc] = 0; 
) 
. .syncthreads(); 
for(i-0; i«BLOCK SIZE; i++) 
{ 


float t; 


p 
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comp—=matA[tidr][i] * matB[i][tidc]; 
七 = results 一 comp; 
comp = (t — results) + comp; results = t; 
i] 
. syncthreads(); 
) 
if(tidr* bidr < n && tidc + bidc < n) 
t 
c[(tidr + bidr) * ldc+tidc+ bidc] = results; 


) 

由 于 使 用 了 16X16 的 thread. P3 JE threadIdx. x 和 threadIdx. y 的 范围 分 别 为 
0— 15, blockIdx. x 和 blockIdx. y 的 范围 分 别 为 0 一 n/16。 在 该 实例 程序 中 ,由 于 方 
阵 的 大 小 不 一 定 是 16 的 信 数 ,因此 需要 使 用 if 判断 语句 来 检查 是 否 超 出 了 方 阵 
的 范围 。 
执行 修改 的 实例 程序 ,其 结果 如 下 所 示 : 
CUDA initialized. 


Max error: 1. 19209e-007 Average error: 4. 22751e-008 Time used: 0. 0780 
Press ENTER to exit... 


可 以 看 出 ,实例 程序 的 执行 速度 虽然 提高 了 ,但 似乎 还 未 达到 预期 的 八 倍 。 当 然 , 在 
前 面 曾 提 及 在 计算 实例 程序 的 时 间 花 费时 ,把 一 些 复制 内 存 .配置 内 存 的 时 间 花 费 也 计算 
在 内 了 ,而 这 些 事件 花费 并 不 会 缩短 。 实 际 上 kernel 函数 的 运行 时 间 大 约 为 0.053s 左右 
(性 能 约 相当 于 38GFLOPS) , 比 上 一 版 本 又 快 了 将 近 一 倍 。 

如 果 此 时 该 实例 程序 的 执行 效率 已 不 再 受 限 于 内 存 带宽 , 那 为 什么 仍 未 达到 预期 的 
效率 呢 ? 这 是 因为 除了 使 用 Kahan's Summation Formula 需要 更 多 的 运算 外 ,该 实例 
程序 中 还 存在 大 量 计算 矩 阵地 址 的 乘法 等 ,都 将 花费 计算 资源 。 另 外 ,那些 用 于 判 
断 是 否 超出 方 阵 范 围 的 计 语 句 , 也 会 对 程序 的 执行 效率 带 来 影响 。 为 了 去 掉 计 语句 ， 
在 配置 内 存 时 ,可 将 其 配置 为 16 的 倍数 ,并 在 将 矩阵 复制 到 显存 之 前 先 将 其 清 零 。 
如 下 所 示 : 


int newn= ((n+ BLOCK_SIZE- 1) / BLOCK SIZE) * BLOCK SIZE; 

cudaMallocPitch((void ** ) &ac, &pitch a, sizeof(float) * newn, newn); 
cudaMallocPitch((void * * ) &bc, &pitch b, sizeof(float) * newn, newn); 
cudaMallocPitch((void * * ) &cc, &pitch c, sizeof(float) * newn, newn); 
cudaMemset(ac, 0, pitch a * newn); cudaMemset(bc, 0, pitch b * newn); 


这 时 ,可 去 掉 kernel 函数 中 的 if ABER RI SUD : 


. global static void matMultCUDA(const float * a, size t lda, const float * b, size t 
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ldb,float* c, size t ldc, int n) 


. shared float matA[BLOCK SIZE][BLOCK SIZE]; 
. Shared float matB[BLOCK SIZE][BLOCK SIZE]; 
const int tidc = threadIdx.x; 
const int tidr = threadIdx. y; 
const int bidc = blockIdx.x * BLOCK SIZE; 
const int bidr = blockIdx.y * BLOCK SIZE; 
int i, j; 
float results - 0; 
float comp - 0; 
for(j= 0; j«n; j+= BLOCK SIZE) 
t 
matA[tidr][tidc] =a[ (tidr + bidr) * lda+ tidc* j]; 
matB[tidr][tidc] - b[(tidr-* j) * ldb* tidc + bidc]; 
. syncthreads() ; 
for(i-0; i < BLOCK SIZE; i++) 
{ 
float t; 
comp -= matA[tidr][i] * matB[i][tidc]; 
七 = results - comp; 
comp- (t - results) + comp; 
results- t; ) 
. Syncthreads() ; 
i 
c[(tidr + bidr) * ldc+ tidc + bidc] = results; 
} 


执行 修改 后 的 实例 程序 ,其 结果 如 下 所 示 : 


CUDA initialized. 
Max error: 1. 19209e-007 Average error: 4. 22751e-008 Time used: 0. 0780 
Press ENTER to exit... 


似乎 该 实例 程序 的 执行 效率 没有 得 到 明显 的 改善 ,不 过 实际 上 kernel 函数 的 运行 时 
间 已 减少 为 0. 042s( 执 行 性 能 约 相当 于 48GFLOPS) 。 

如 果 将 block 变 得 更 大 是 否 有 助 于 提高 该 实例 程序 的 执行 效率 呢 ? 当然 ,由 于 此 时 
实例 程序 已 不 再 受 限于 内 存 带 宽 ( 在 0. 042s 内 存 取 500MB 数据 约 相当 于 12GB/s 的 带 
宽 ) ,所 以 将 block 再 加 大 并 不 会 带 来 性 能 上 的 收益 。 而 且 , 由 于 一 个 block 内 最 多 只 能 有 
512 个 thread, 将 block 变 大 还 会 带 来 额外 开销 。 另 外 ,shared memory 的 大 小 也 有 限制 
(GeForce 8800GT 的 shared memory 大 小 被 限制 在 16 384B 之 内 ) ,所 以 也 不 能 任意 增加 
block 的 大 小 。 
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dM 
本 节 主 要 从 CUDA 常用 API、 编 程 模型 .存储 器 模型 等 方面 介绍 了 CUDA 的 基本 知 
识 。 其 中 ,API 和 编程 模型 为 CUDA 程序 员 提 供 了 CUDA 的 接口 。 而 存储 器 模型 最 为 
重要 ,在 实际 应 用 中 ,对 各 级 存储 器 的 理解 和 合理 使 用 会 直接 影响 到 CUDA 程序 的 执行 
效率 。 只 有 清楚 地 了 解 CUDA 的 体系 结构 ,才能 最 大 限度 地 发 挥 GPU 各 个 部 件 的 性 能 ， 
才能 体现 出 GPU 并 行 计 算 的 优势 。 
对 希望 进一步 学 习 CUDA 的 读者 ,可 参考 http://cuda. itpub. net/ ,该 论坛 提供 了 很 
多 CUDA 程序 代码 和 使 用 心得 。 除 此 之 外 ,还 可 关注 NVIDIA 公司 和 AMD 公司 在 
GPU 领域 中 的 最 近 进 展 。 


3.5 Cell BE 上 的 编程 模型 与 语言 


本 节 将 概要 介绍 Cell BE 编程 的 相关 知识 。 在 本 节 中 ,将 重点 放 在 如 何 使 初学 者 快 
速 入 门 。 其 主要 内 容 包 括 : 搭建 Cell BE 编程 环境 ; 从 头 开始 编译 ,运行 一 个 简单 的 Cell 
BE 程序 ,并 了 解 Cell BE 程序 的 基本 框架 ; 随后 介绍 Cell BE 的 相关 API, 使 读者 了 解 
Cell BE 程序 的 运行 过 程 ; 最 后 介绍 如 何在 Cell BE 上 实现 传统 矩阵 乘 的 并 行 化 ,并 简要 
介绍 在 模拟 器 环境 下 进行 Cell BE 程序 的 性 能 分 析 和 优化 。 


3.5.1 Cell BE 简介 


Cell Broadband Engine(Cell BE) 处 理 器 是 由 日 本 的 Sony, Toshiba 和 美国 的 IBM 于 
2001 年 初 开始 合作 研发 的 一 款 多 核 处 理 器 。 它 基于 新 的 多 处 理 器 架构 一 一 Cell 
Broadband Engine Architecture(CBEA) 。Sony 于 2006 年 下 半年 发 布 的 新 一 代 游 戏 主机 
PlayStaion3(PS3) 就 采用 了 Cell BE 处 理 器 。Cell BE 的 主要 设计 目标 是 将 PlayStation2 
的 处 理 器 性 能 提高 100 倍 。 在 2001 年 3 月 ,这 三 家 公司 在 美国 德州 奥斯汀 成 立 了 STI 
(Sony、Toshiba、IBM) 设 计 中 心 作为 联合 开发 实验 室 。 在 2005 年 ,STI 最 终 完成 了 Cell. 
并 发 表 了 一 篇 技术 专利 来 展示 其 处 理 器 芯片 。 在 2006 年 2 月 ,IBM 还 向 市 场 推出 了 Cell 
刀片 计算 机 系统 。Cell 刀片 是 第 一 种 多 内 核 刀 片 计 算 机 ,为 那些 运行 计算 密集 型 工作 和 
宽带 媒体 应 用 带 来 了 突破 性 的 性 能 提升 。 

虽然 ,Cell BE 最 初 是 为 多 媒体 应 用 (如 游戏 机 和 高 清 电视 ) 而 设计 ,但 Cell BE 并 非 
仅仅 是 一 个 专用 的 处 理 器 , 它 先进 的 架构 使 其 非常 适用 于 任何 需要 在 短 时 间 内 提供 海量 
计算 能 力 和 数据 吞吐 能 力 的 应 用 ,如 NGN 核心 设备 .数字 信和 号 处 理 、 物 理 模拟 .生物 数据 
分 析 、 高 性 能 商业 和 科学 计算 等 。 在 2005 年 6 H .IBM 和 Mercury Computer Systems 结 
成 合作 伙伴 关系 ,共同 研发 基于 Cell BE 的 嵌入 式 应 用 ,以 期 将 Cell BE 应 用 于 医疗 图 像 、 
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工业 用 途 检测 、 地 震 数据 处 理 以 及 电信 等 领域 。Cell BE 正在 和 其 他 领域 处 于 领导 地 位 的 
处 理 器 架构 进行 激烈 的 竞争 。 

Cell BE 处 理 器 与 众 不 同 的 地 方 在 于 : 每 块 芯 片 包含 一 个 主 处 理 单元 (PPE) 和 另外 
八 个 协 处 理 单元 (SPE) 。 这 种 多 核 架 构 是 Cell BE 所 特有 的 。PPE 的 作用 是 运行 操作 系 
统 , 管 理 系统 资源 ,以 及 进行 控制 处 理 ( 比 如 SPE 线程 的 申请 和 管理 )。SPE 用 于 执行 
PPE 分 配 大 量 数 据 , 运 算 复 杂 的 子 任 务 等 。Cell BE 处 理 器 在 设计 时 便 将 分 布 式 处 理 考 
虑 在 内 , 它 将 高 性 能 的 计算 任务 分 成 更 小 的 部 分 ,并 将 这 些 子 任务 分 配 到 多 个 处 理 单元 ， 
每 个 处 理 单元 都 以 4GHz 以 上 的 速度 运行 。 正 是 这 种 能 力 使 得 Cell BE 处 理 器 能 以 
192GFLOPS 的 速度 运行 。 另 外 ,基于 Cell BE 的 处 理 器 不 仅 可 以 在 一 块 芯片 上 的 资源 之 
间 执 行 分 布 式 处 理 , 还 可 以 在 多 块 芯片 甚至 各 个 网 络 设备 上 执行 分 布 式 处 理 。 


3.5.2 第 一 个 Cell BE 程序 
1. SDK 的 安装 


Cell BE SDK 是 专门 为 在 Cell 体系 架构 上 进行 软件 和 系统 开发 以 及 性 能 分 析 提供 的 
一 个 完整 的 开发 工具 包 。 它 提供 了 高 效 的 开发 工具 和 开发 库 、 仿 真 环境 以 及 大 量 的 技术 
文档 。 在 SDK 环境 下 编译 出 来 的 程序 ,可 直接 拷贝 到 实际 的 Cell Blade Server 上 正常 运行 。 

在 安装 SDK 之 前 ,需要 完成 Linux 操作 系统 (Fedora、 Ubuntu 均 可 ) 的 安装 ,并 配置 
好 其 gnome 界面 。 查 看 系统 是 否 安装 了 rsync sed tcl, wget 程序 包 。 否 则 ,使 用 yum T. 
有 具 进行 安装 ,其 安装 命令 为 yum install rsync sed tcl wget. 

可 在 IBM 的 developworks 网 站 http://www-128. ibm. com/ developerworks/ power/ cell/ F 
载 Cell BE SDK 包 。 该 包 共 有 四 个 文件 ,其 中 两 个 是 基本 库 : cell-install-3. 0. 0-1. 0. noarch. 
rpm 和 CellSDK-Devel-Fedora 3. 0. 0. 1. 0. iso。 剩 余 的 两 个 是 扩展 库 : cell-extras-Fedora- 
license-3. 0. 0-2. 0. noarch. rpm 和 CellSDK-Extras-Fedora 3. 0. 0. 1. 0. isos 

将 所 有 安装 文件 放 入 /home/sdk3. 1 文件 夹 , 然 后 按照 如 下 步骤 进行 安装 : 

$ cd /home/sdk3.1 

$  rpn-ivh cell-install-3.1.0-0.0.noarch. rpm 

其 运行 结果 如 下 所 示 : 


Preparing... 
1:cell-install 


$ cd/opt/cell 
$ ./cellsdk —- iso /home/sdk3.1 install 


其 运行 结果 如 下 所 示 : 


" 


E 


并 行 计 算 机 及 编程 基础 


cellsdk INFO-2050: STARTING cellsdk --iso /home/sdk3.1 install. 

cellsdk INFO-2041: Copying SDK versions of open source rpms to /tmp/cellsdk/openSrc 
cellsdk INFO-2016: Copied 0 of 0 rpms into /tmp/cellsdk/openSrc 

cellsdk INFO-2041: Copying SDK versions of open source rpms to /tmp/cellsdk/openSrc 

cellsdk INFO-2016: Copied 0 of 0 rpms into /tmp/cellsdk/openSrc 

cellsdk INFO-2041: Copying SDK versions of open source rpms to /tmp/cellsdk/openSrc 
cellsdk INFO-2016: Copied 0 of 0 rpms into /tmp/cellsdk/openSrc 

cellsdk INFO-2043: Calling yum --disablerepo-* --enablerepo-CellSDK-Devel-Fedora-x86 
--enablerepo-CellSDK-Extras-F edora-x86 --enablerepo-CellSDK-Open-F edora-x86 update 
Loaded plugins: refresh-packagekit 


CelISDK-Extras-Fedora-x86 |L.1kB 00:00 
CellSDK-Open-Fedora-x86 |L1kB 00:00 
CellSDK-Devel-Fedora-x86 |L1kB 00:00 
Setting up Update Process 

No Packages marked for Update 


cellsdk INFO-2046: No rpms need to be installed 


cellsdk INFO-2025: All default rpms are installed 
cellsdk INFO-2045: The cellsdk install is complete 
cellsdk INFO-2051: ENDING cellsdk --iso /home/sdk3.1 install 


提示 安装 完成 之 后 ,退出 安装 界面 。 紧 接着 安装 模拟 器 ,在 console 中 运行 : 


$  /opt/cell/cellsdk sync simulator install 


不 过 ,直接 这 样 做 可 能 会 有 问题 。 若 不 能 成 功 安装 ,可 单独 下 载 其 模拟 器 进行 安装 。 
下 载 地 址 ; http://www. alphaworks. ibm. com/tech/cellsystemsimsystemsim-cell-3. 1- 
8. {9.1i386. rpm。 若 安装 模拟 器 时 提示 缺少 libstd6. so 等 库 , 可 以 使 用 yum 命令 进行 
安装 。 

当 出 现 "Installation of RPMs into Simulator sysroot image is complete." 则 表示 安装 
完成 。 默 认 只 安装 必需 的 rpm 包 。 如 果 还 需 安装 xlc 和 其 他 Cell BE 编程 的 扩展 高 级 
库 , 可 手动 将 两 个 iso 文件 以 命令 mount-o loop 到 某 个 目录 下 去 安装 。 安 装 完 之 后 的 目 
录 结 构 如 表 3-12 所 示 。 


表 3-12 目录 结构 
目 录 内 容 备 È 
/opt/cell/sdk/src 例子 程序 
/opt/cell/sdk/prototype/src 使 用 ALF 的 例子 程序 
/opt/cell/sdk/docs pdf 文档 包含 Cell BE 编程 手册 
/opt/ibm/systemsim-cell 与 模拟 器 有 关 的 内 容 包含 一 个 小 的 Linux 操作 系统 


/opt/cell/toolchain 编译 器 和 函数 库 
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2. 运行 模拟 器 
安装 完 Cell BE SDK 之 后 ,运行 模拟 器 (如 下 ) : 


$ export PATH = /opt/ibm/systemsim - cell/bin: $ PATH 
$ systemsim -g 


其 运行 结果 如 下 所 示 : 


GUI Enabled 

Licensed Materials - Property of IBM. 

(C) Copyright IBM Corporation 2001, 2007 

All Rights Reserved. 

Using initial run script /opt/ibm/systemsim-celVbin/../lib/cell/systemsim.tcl 

GUI not initialized. Execute tcl command 'gui init'. 

building tree... 

clearing existing Openfirmware tree 

done building tree. 

LOAD : Opening ELF image file: /opt/ibm/systemsim-cell/bin/. /images/cell/vmlinux 
Elf text start address saved is Ux0000000001000000 

Elf ReadImage: Opening ELF image file: /opt/ibrn/systemsim-cell/imag es/cell/vmlinux 
Elf ReadImage: alloc-ed 8784792 bytes for /opt/ibm/systemsim-cell/images/cell/vmlinux 


D 


vmlinux get struct info got errors: couldn't execute "/opt/ibm/systemsim-cell/bin/. /bin/parse dwarf pl": 


no such file or directory 

LOAD : ELF startup: PC-0x0000000001000000, msr-0x1000000000000000 

LOAD gpr[1]z0x000000000FFFFF90, gpr[2]-0x0000000000000000 
systemsim 95 


模拟 器 运行 之 后 的 界面 ,如 图 3-42 所 示 。 


systemsim-cell 


图 3-42 ”模拟 器 的 运行 界面 


a 


— o 


并 行 计 算 机 及 编程 基础 


单 击 图 3-42 界面 上 的 Mode, 选择 Fast Mode, 然 后 单 击 Go 按钮 ,就 会 出 现 启动 
Linux 操作 系统 之 后 的 界面 ,如 图 3-43 所 示 。 


ide; Assuming 50MHz system bus speed for PIO modes; override with idebus=xx 
mice? PS/2 mouse device common for all mice 
platform ppc-rtc,0; rtc core; registered ppc md as rtc 
usbcore; registered new interface driver hiddev 
usbcore: registered new interface driver usbhid 
|drivers/hid/usbhid/hid-core,c; v2,6:USB HID core driver 
ITCP cubic registered 
Initializing XFRM netlink socket 
NET: Registered protocol family 1 
NET: Registered protocol family 17 
registered taskstats version 1 
imd? Rutodetecting RAID arrays. 
imd: Scanned 0 and added 0 devices, 
imd: autorun s.. 
nd: ... autorun DONE. 
Quen uem disk 0 with devsz 1843200 

: Mounted root (ext2 filesystem). 
HE unused kernel memory: 448k freed 

Welcome to Fedora Fedora release 9 (Sulphur) 
Press 'I' to enter interactive startup, 

leth0: bogus network driver initialization 
No IRQ retreived 
Starting login process 
TrontB(nane) “1# M 


图 3-43 ”启动 模拟 平台 的 Linux 系统 


3. Cell BE 程序 结构 


一 般 情况 下 ,Cell BE 应 用 程序 不 会 控制 SPE 的 物理 系统 资源 ,整个 系统 的 所 有 物理 
资源 都 由 Linux 操作 系统 管理 ,操作 系统 会 提供 某 种 机 制 实现 应 用 程序 对 SPE 的 访问 和 
控制 。 由 应 用 程序 管理 和 使 用 的 资源 称 为 SPE 上 下 文 (SPE Context), SPE 上 下 文 是 对 
SPE 物理 系统 资源 的 迎 辑 描述 。 

Cell BE SDK 提供 SPE 运行 时 管理 库 libspe 实现 应 用 程序 对 SPE 上 下 文 的 操作 ， 
libspe 是 一 个 标准 的 底层 应 用 程序 编程 接口 。 通 过 该 库 及 其 应 用 程序 接口 (API) ,应 用 程 
序 可 以 控制 SPE 的 上 下 文 , 从 而 获得 访问 SPE 系统 资源 的 机 会 。SPE 是 与 操作 系统 完 
全 不 相关 的 库 函 数 。 在 实际 系统 中 ,SPE 上 下 文 由 操作 系统 调度 到 物理 SPE 资源 上 。 

在 简单 的 应 用 程序 中 ,使 用 SPE 的 基本 流程 如 下 : 

(D 创建 一 个 SPE E FX. 

@ 加 载 一 个 SPE 可 执行 对 象 到 SPE 上 下 文 的 本 地 存储 器 。 

© 运行 SPE 上 下 文 。 将 控制 权 交 给 操作 系统 ,由 操作 系统 实现 物理 上 的 上 下 文 调 
度 , 并 将 上 下 文 加 载 到 SPE 物理 资源 上 。 

@ 销毁 SPE EFX. 

上 述 的 第 三 步 需要 操作 系统 的 一 个 同步 调用 。 执 行 该 调用 的 应 用 程序 会 被 阻塞 , 直 
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到 SPE 停止 运行 或 操作 系统 从 该 调用 返回 。 

大 多 数 应 用 程序 需要 并 发 地 调用 多 个 SPE。 因 此 ,应 用 程序 必须 创建 多 个 线程 与 并 
发 的 SPE 上 下 文 进行 匹配 ,每 个 线程 一 次 运行 一 个 SPE 上 下 文 。 例 如 ,如 果 需 要 n 个 并 
发 SPE 上 下 文 , 线 程 数 一 般 为 主 程序 线程 加 上 个 SPE 上 下 文 执行 的 专用 线程 。 

运行 n A SPE 上下文 的 基本 流程 如 下 : 

(OD 8j n4 SPE EFX; 

(2) 加 载 合 适 的 SPE 可 执行 对 象 到 每 个 SPE 上 下 文 的 本 地 存储 器 中 ; 

(3) 创建 个 线程 (每 个 SPE 上 下 文 运行 在 一 个 线程 上 ); 

(4) 等 待 所 及 个 线程 停止 运行 ; 

(5) 销毁 所 有 nn T SPE EFX. 


4. 第 一 个 Cell BE 程序 


创建 一 个 名 为 test 的 程序 进行 Cell BE 的 简单 编程 ,该 程序 使 用 PPU 来 调度 SPU， 
计算 4 个 整数 乘 以 4 个 浮 点 数 的 结果 。 

一 般 情况 下 ,Cell BE 程序 的 目录 结构 为 : 

。 一 个 用 于 存储 整个 源 代码 的 工程 目录 ; 

。 两 个 分 别 存 储 PPE 端 和 SPE 端的 源 代码 与 Makefile 文件 的 子 目 录 。 

在 工程 目录 下 的 Makefile 文件 可 以 调用 两 个 子 目 录 中 的 Makefile 进行 编译 。 

下 面 的 Cell BE 程序 以 test 为 工程 目录 。3 个 Makefile 文件 和 2 个 c 文 件 的 内 容 如 下 : 


test/Makefile : 


DIRS = spu ppu 
include /opt/cell/sdk/buildutils/make. footer 


test/ppu/Makefile: 
PROGRAM ppu := ../test 


IMPORTS = ../spu/libtest spu.a - lspe2 -lpthread 
include /opt/cell/sdk/buildutils/make. footer 


test/spu/Makef ile: 
PROGRAMS spu := test spu 
LIBRARY embed 7 libtest spu.a 


include /opt/cell/sdk/buildutils/make. footer 
test/ppu/test ppu.c: 


# include < pthread. h> 


a 


| 并 行 计算 机 及 编程 基础 


# include < libspe2.h» 
/* 定义 参与 并 行 运算 的 spu 个 数 (不 要 超过 8, 否则 不 能 真正 并 行 ) * / 
# define SPU THREADS 2 


/* 定义 spe 可 执行 程序 的 句柄 * / 
extern spe program handle t test spu 


/* 线程 函数 .在 ppu 主 程序 中 创建 一 个 新 线程 之 后 ,新 线程 执行 此 函数 / 
void * ppu pthread function(void * arg) 
t 
spe context ptr t ctx; 
unsigned int entry - SPE DEFAULT ENTRY; 
ctx-* ((spe context ptr t * arg); 
/* 运行 spe UT */ 
if (spe context run(ctx, &entry, 0, NULL, NULL, NULL) < 0) 
t 
perror ("Failed running context"); 
return NULL; 
} 
/* ppe 线程 退出 */ 
pthread exit(NULL); 
} 


int main ( ) 

{ 
int i; 
spe context ptr t ctxs[SPU THREADS]; 
pthread t threads[SPU THREADS]; 


for(i-0; i«SPU THREADS; i++) 
t 
/* 创建 spe 的 上 下 文 */ 
if ((ctxs[i] = spe context create (0, NULL)) == NULL) 
{ 
perror ("Failed creating context"); 
return - 1; 
} 
/* 加 载 spe 程序 * / 
if (spe program load (ctxs[i], &test spu)) 
t 
perror ("Failed loading program"); 
return - 1; 
) 
/* 创建 ppe 线 程 */ 
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if (pthread create (&threads[i], NULL, &ppu pthread function, &ctxs[i])) 


{ 
perror ("Failed creating thread"); 
return - 1; 


for(i-0; i«SPU THREADS; i++) 
{ 
/* 等 待 所 有 的 ppe 线程 结束 * / 
if (pthread join (threads[i], NULL)) 
{ 
perror("Failed pthread join"); 
return - 1; 
) 
/* 销毁 spe 的 上 下 文 */ 
spe contest destroy(ctxs[i]); 
} 


return (0); 
} 
test/spu/test spu.c: 
# include < stdio.h» 


/* 单个 spu 进行 的 运算 * / 

int main() 

{ 
int a[4] = (140, 270, 450, 822); 
float b[4] = (2, 0.54, 1.78, 0.33); 
int c[4] = (0); 


int i=0; 
for( i=0; i<4; i++) 
{ 


c[i]=a[i] * b[i]; 
printf ("c[ %d] =% d\n", i, c[i]); 
) 


return 0; 


} 

在 test 的 根 目录 下 生成 一 个 名 为 test 的 可 执行 程序 ,这 个 可 执行 程序 (/home/test/ 
test) 需 要 被 复制 到 模拟 器 环境 的 Linux 中 才能 运行 ,在 模拟 器 的 console 窗口 中 输入 如 
图 3-44 所 示 的 命令 并 获得 相应 的 结果 。 


a 


Zs 并 行 计算 机 及 编程 基础 


[rootB(none) “]# callthru source /home/test/test > ./test 
[root@(none) “]# chmod +x test 
[rootR(none) “]# /test 


c[2] = 800 
c[3] = 271 
[root&(none) “J+ M 


图 3-44 在 模拟 器 中 运行 程序 


3.5.3 Cell BE 编程 模型 简介 


在 上 节 程 序 中 ,使 用 了 许多 的 SPE API。 下 面 ,来 了 解 一 下 这 些 API。 首 先 , SPE 
API 是 围绕 SPE 上 下 文 这 个 概念 建立 的 。SPE 上 下 文 是 指 SPE 中 完整 数据 集 (包括 可 
执行 代码 ) 的 当前 状态 。 在 API 中 ,SPE 上 下 文 的 调用 是 同步 的 : 该 调用 直到 所 调用 的 
程序 执行 完成 之 后 才 会 结束 。 主 程序 代码 必须 创建 多 个 线程 (或 进程 ) 来 运行 多 个 SPE。 
同时 ,可 以 直接 使 用 线程 API 来 直接 控制 与 线程 调度 有 关 的 过 程 。 

SPE 程序 含有 main 函数 , 它 将 被 独立 编译 。SPE 程序 简单 地 执行 一 些 必需 的 工作 ， 
其 设置 和 销毁 均 由 连接 到 SPE 程序 中 的 启动 代码 和 PPE 上 运行 的 库 代码 自动 处 理 , 一 
般 情况 下 可 忽略 这 些 过 程 。 不 过 ,SPE 程序 必须 做 一 些 自己 的 数据 转换 工作 。 

下 面 ,介绍 一 下 上 节 程 序 中 出 现 过 的 重要 数据 类 型 。SPE API 定义 了 很 多 不 透明 的 
数据 类 型 ,它们 被 用 作 各 个 API 函数 的 参数 。 此 处 不 会 详细 介绍 所 有 这 些 数据 类 型 的 内 
容 , 而 是 简要 地 介绍 在 上 节 程序 中 用 到 的 几 个 数据 类 型 。 

* spe context ptr t 表示 一 种 虚拟 化 的 SPE 状态 。 其 中 包括 了 寄存 器 状态 和 本 地 
存储 中 的 内 容 。 它 是 表示 程序 在 SPE 上 执行 状态 的 数据 结构 ,不管 程序 在 被 加 
载 . 正 在 运行 还 是 正在 查询 ,或 是 被 停止 了 ,这 些 状态 都 可 以 通过 这 个 数据 结构 查 
询 。 它 是 一 个 不 透明 的 句柄 。 此 处 不 深入 介绍 其 中 的 内 幕 。 要 了 解 更 多 的 有 关 
内 容 , 请 参考 文献 (Cell BE 处 理 器 编程 指南 )。 
spe_program_handle_t 是 一 个 句柄 ,用 来 标识 一 个 可 在 libspe2 中 使 用 的 SPE 可 
执行 程序 。 该 数据 类 型 可 在 一 个 包含 SPE 二 进 制 的 文件 中 创建 ,或 使 用 ppu- 
embedspu 工具 嵌入 PPE 程序 当中 。 它 也 是 一 个 不 透明 的 句柄 ,只 由 库 来 使 用 。 
spe_stop_info_t 用 来 记录 SPE 程序 停止 执行 的 原因 。 不 同 于 以 上 两 种 数据 类 
型 , 它 是 一 个 透明 的 句柄 。 其 结构 在 SDK 文档 中 有 所 介绍 ,其 中 最 重要 的 成 员 是 
stop_reason, 它 表示 SPE 程序 停止 执行 的 原因 。 最 常见 的 值 是 SPE EXIT. f$ 
成 功 执行 之 后 ,在 该 结构 中 会 保存 退出 的 状态 。 
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下 面 ,来 看 一 下 上 节 程 序 中 使 用 过 的 API m. 


i 


3. 


spe context ptr t spe_context_create(unsigned int flags. spe gang context ptr t gang) 


该 函数 中 的 flag 参数 用 来 设 定 线程 的 特性 ,一 般 传 入 0 即 可 。 

gang 参数 用 于 将 新 建 的 SPE 上 下 文 与 它 指向 的 spe 组 上 下 文 相关 联 ,一 般 传 人 
NULL, 表 示 该 SPE 上 下 文 没有 与 任何 SPE 组 上 下 文 相 关联 。 

该 函数 调用 成 功 会 返回 一 个 spe 上 下 文 的 指针 。 


. int spe program load (spe context ptr t spe. spe program handle t * program) 


该 函数 中 的 SPE 参数 指向 spe 程序 执行 时 SPE 上 下 文 环境 ,一 般 会 传人 spe_ 
context_create 函数 执行 后 的 返回 值 。 

program 参数 指向 已 经 映射 到 内 存 的 SPE 端 程序 。 

该 函数 调用 成 功 之 后 返回 0。 


int spe context run(spe context ptr t spe. unsigned int — * entry. unsigned int 


runflags. void * argp. void — * envp. spe stop info t — * stopinfo) 


该 函数 中 的 SPE 参数 指向 SPE 程序 执行 时 的 SPE 上 下 文 环 境 , 一 般 会 传人 spe_ 
context create 因数 执行 后 的 返回 值 。 

entry 参数 表示 SPE 程序 开始 执行 时 的 初始 地 址 ,一 般 传 人 SPE_DEFAULT_ 
ENTRY ,表示 将 使 用 默认 的 初始 地 址 。 

runflags 参数 用 来 设 定 SPE 程序 执行 时 的 特性 ,一 般 传 0 即 可 。 

argp 是 一 个 可 选 的 参数 ,可 用 作 传递 给 SPE 程序 的 第 二 个 参数 。 

envp 也 是 一 个 可 选 的 参数 ,可 以 作为 传递 给 SPE 程序 的 第 三 个 参数 。 

stopinfo 是 一 个 有 效 的 指针 ,指向 spe stop info t 结构 ,SPE 程序 执行 结束 时 ,此 
结构 体 相关 信息 将 被 填充 ,对 大 多 数 程 序 来 说 ,输入 NULL 即 可 。 

该 函数 调用 成 功 之 后 返回 0 或 一 个 正 数 。 


. int spe context destroy(spe context ptr t spe) 


该 函数 中 的 SPE 参数 指向 SPE 程序 执行 时 的 SPE 上 下 文 , 一 般 会 传人 spec 
context create 函数 的 返回 值 。 
该 函数 调用 成 功 之 后 返回 0。 


从 应 用 程序 开发 者 的 角度 来 看 ,Cell BE 可 被 简单 地 视 为 一 个 9 路 多 处 理 器 。PPE 
是 一 个 基于 PowerPC 架构 的 双 线 程 双 发 射 .顺序 执行 的 RISC 处 理 单元 。 在 一 个 时 钟 周 
期 内 , 它 可 以 处 理 来 自 两 个 线程 的 指令 ( 即 所 谓 硬 件 多 线程 SMT)。 所 以 ,再 加 上 8 个 
SPE, 整 个 处 理 器 能 够 在 同一 时 刻 同时 运行 10 个 任务 。 


并 行 计 算 机 及 编程 基础 


基本 上 ,PPE 作为 控制 和 任务 调度 处 理 器 ,SPE 则 主要 处 理 计 算 任 务 。 举 例 来 说 ,在 
一 个 IPTV 机 顶 盒 应 用 中 ,需要 创建 多 个 SPE 线程 用 于 视频 解码 和 输出 。 那 么 ,PPU 负 
责 创建 ,管理 和 维护 这 些 SPE 线程 。PPE 是 一 个 通用 的 64 位 RISC PowerPC 架构 的 处 
理 器 ,因此 对 PPE 的 编程 与 普通 的 PowerPC 的 编程 相同 ,很 多 在 PowerPC 处 理 器 平 
台 上 编写 的 应 用 程序 可 稍 作 修 改 甚 至 不 用 修改 就 能 移植 到 全 新 的 Cell BE 处 理 器 上 
运行 。 

在 内 存 访问 方式 上 的 不 同 是 SPE 与 PPE 的 一 个 关键 性 区 别 。PPE 通过 load 和 
store 指令 直接 访问 主 存 和 寄存 器 。SPE 则 要 通过 DMA 访问 主 存 ,将 指令 和 数据 读 取 并 
存 人 本 地 存储 器 ,而 不 是 直接 共享 主 存 。 

为 了 使 Cell BE 的 性 能 得 以 充分 利用 ,在 PPE 上 运行 的 操作 系统 必须 能 够 支持 多 任 
务 。 在 PPE 上 运行 的 主线 程 负责 创建 一 个 或 多 个 Cell BE 任务 。 一 个 Cell BE 任务 有 一 
个 或 多 个 主线 程 和 一 些 SPE 线程 与 其 相关 联 。 每 个 SPE 线程 将 在 一 个 单独 的 SPE 上 运 
行 ,每 个 SPE 都 有 自己 的 寄存 器 。 主 线程 可 与 SPE 直接 通信 或 通过 主 存 与 SPE 间接 通信 。 

操作 系统 会 根据 一 定 的 策略 来 调度 SPE 线程 。 它 首先 对 系统 中 的 Cell BE 任务 进行 
优先 级 划分 。 然 后 ,独立 地 对 SPE 的 执行 和 主线 程 进行 调度 。 操 作 系统 还 负责 完成 SPE 
程序 的 动态 加 载 , 参 数 传递 .对 SPE 事件 响应 以 及 提供 调试 支持 等 。 

SPU 只 能 从 本 地 存储 器 中 取 指 令 和 数据 。SPU 应 用 程序 使 用 本 地 存储 器 地 址 ,因此 
SPU 的 load 和 store 指令 只 能 访问 本 地 存储 器 。SPE 的 DMA 控制 器 负责 完成 本 地 存储 
器 地 址 和 系统 主 存 地 址 之 间 的 指令 和 数据 的 传送 。 

Cell BE 有 多 种 编程 模型 。 对 于 简单 的 SPE 应 用 程序 来 说 ,与 普通 的 应 用 程序 编程 
类 似 。 首 先 ,需要 将 任务 进行 划分 .针对 不 同 的 SPE 编写 不 同 的 代码 ,每 个 SPE 完成 一 
个 特定 的 任务 。 在 这 种 情况 下 ,SPE 不 需要 访问 主 存 , 只 需 访 问 本 地 存储 ,SPE 的 数据 
段 , 代 码 段 的 大 小 不 能 超过 256KB。 

如 果 数 据 段 和 代码 段 的 大 小 超过 了 256KB, 则 需要 使 用 大 型 SPE 编程 模式 。 在 该 模 
式 下 ,PPE 会 预 留 一 段 有 效 地 址 空间 供 SPE 程序 使 用 ,然后 将 这 段 有 效 地 址 空间 的 起 始 
地 址 告知 SPE,SPE 便 通 过 DMA 方式 访问 这 段 内 存 。 

在 有 些 时 候 , 需 要 多 个 SPE 之 间 进 行 协同 工作 ,SPE 线程 之 间 就 会 出 现 同步 问题 。 
在 Cell BE 中 ,可 通过 原子 操作 、 信 箱 机 制 、SPE 的 信号 机 制 . 事 件 和 中 断 机 制 以 及 对 共享 
内 存 的 轮 询 方式 实现 线程 之 间 的 同步 。 

在 多 个 SPE 线程 协同 工作 时 ,存在 如 下 两 种 工作 方式 。 

(OD 工作 队列 方式 : 在 这 种 方式 下 ,一 个 空闲 的 SPE 将 会 分 配 一 个 任务 。 

© 流水 线 方式 : 每 个 SPE 处 理 同 一 任务 的 一 部 分 工作 ,前 一 个 SPE 的 输出 作为 后 
一 个 SPE 的 输入 。 


m 
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3.5.4 性 能 分 析 与 优化 


1. 在 Cell BE 上 实现 矩阵 乘法 


下 面 的 实例 通过 邮箱 和 DMA 在 SPE 和 PPE 之 间 传 递 数 据 以 实现 矩阵 乘法 的 并 行 
计算 。PPE 通知 SPE 待 计算 矩阵 的 位 置 以 及 各 个 SPE 需要 计算 的 行 ,SPE 计算 完毕 之 
后 将 数据 发 回 给 PPE,PPE 在 收集 全 部 数据 之 后 输出 结果 和 矩阵。 

PPE 上 的 matrix ppu 程序 代码 如 下 : 


# include < stdlib.h» 
# include < stdio.h» 

# include < errno. h> 

# include < libspe2. h> 
# include < pthread. h> 
# include < libmisc. h> 


# define SPU_THREADS 4 
# define N 4 


void * ppu pthread function(void * arg); 
void test(); 


int main() 
{ 


test(); 
printf("The program has sunccessfully executed. Wn"); 


return 0; 


) 


void * ppu pthread function(void * arg) 
t 
| context ptr t ctx; 
unsigned int entry - SPE DEFAULT ENTRY; 


ctx-* ((spe context ptr t * )arg); 
if(spe context run(ctx, &entry, 0, NULL, NULL, NULL)«O ) ( 
perror("Failed running context"); 
exit(1); 
) 
return NULL; 
} 


void test() 


t 
extern spe program handle t simple spu; 


p 
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spe context ptr t ctxs[SPU THREADS]; 

pthread t threads[SPU THREADS]; 

intma[N][N] attribute — ((aligned(128))); 
intmb[N][N] attribute — ((aligned(128))); 

int result[N][N] — attribute — ((aligned(128))); 


srand((unsigned)time(NULL)); 
unsigned int i, j; 
for(i-0; i«N; i++) 
for(j70; j«N; j++) 
{ 
ma[i][j] = rand() % 100; 
mb[i][j] = rand() % 100; 
result[i][j] = 0; 
} 


for(i=0; i<SPU_ THREADS; i++) 
{ 
/* 创建 SSE 上 下 文 */ 
if((ctxs[i] = spe context create(0, NULL)) == NULL) 
{ 
perror("Failed creating context"); 
exit(1); 
) 
/* 加 载 SPE 端 程序 到 上 下 文 * / 
if(spe_program load(ctxs[i], &simple_spu)) 
{ 
perror("Failed loading program"); 
exit(1); 
} 
/* 创建 线程 */ 
if(pthread create(&threads[i], NULL, &ppu pthread function, ctxs + i)) 
1 
perror("Failed creating thread"); 
exit(1); 


) 


/* 将 要 计算 的 行 通过 邮箱 传递 给 SPE */ 
for(i-0; i«SPU THREADS; i++) 
{ 
spe in mbox write(ctxs[i], &i, 1, SPE MBOX ANY NONBLOCKING); 
} 
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/* 将 要 计算 的 矩阵 地 址 通过 邮箱 传递 给 SPE * / 

unsigned int pma, res; 

unsigned int pmb = (unsigned int)mb; 

for(i-0; i«SPU THREADS; i++) 

{ 
pma = (unsigned int)&ma[i][0]; 
res = (unsigned int)&result[i][0]; 
spe_in_mbox_write(ctxs[i], &pma, 1, SPE_MBOX_ANY_NONBLOCKING) ; 
spe_in_mbox_write(ctxs[i], &pmb, 1, SPE_MBOX_ANY_NONBLOCKING) ; 
spe_in_mbox_write(ctxs[i], &res, 1, SPE_MBOX_ANY_NONBLOCKING) ; 


unsigned int dataFin; 
for(i=0; i<SPU_THREADS; i++) 
{ 
dataFin = 0; 
while(spe out mbox status(ctxs[i]) < 1); 
spe out mbox read(ctxs[i], &dataFin, 1); 
if(dataFin -- 1) 
continue; 


/* SPE 端 计算 完成 之 后 通知 PPE, 并 将 结果 数据 传 回 PPE* / 
unsigned int taskFinished = 0; 
for(i-0; i«SPU THREADS; i++) 
( 
while(spe out mbox status(ctxs[i]) < 1); 
spe out mbox read(ctxs[i], &taskFinished, 1); 
if(taskFinished -- 2) 
t 
taskFinished - 0; 


printf("Matrix A is:\n"); 
for(i=0; i<N; i++) 
{ 

for(j=0; j<N; j++) 

{ 

printf(" $d ", ma[i][j]); 

} 

printf("\n"); 
} 
printf("Matrix B is:\n"); 


" 
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for(i=0; i<N; i++) 


{ 
for(j=0; j<N; j++) 
{ 
printf(" $d ", mb[i][j]); 
) 
printf("An"); 
} 


printf("Matrix A multiply matrix B is:\n"); 
for(i=0; i<N; i++) 
{ 

for(j=0; j<N; j++) 

{ 

printf("%d ", result[i][j]); 

} 

printf ("\n"); 
} 


/* 等 待 所 有 的 PPE 线程 结束 ,销毁 SPE 上 下 文 * / 
for(i=0; i<SPU THREADS; i++) 


{ 
if(pthread_join(threads[i], NULL)) 
{ 
perror("Failed pthread join"); 
exit(1); 
} 
} 


} 
SPE 上 的 matrix spu 程序 代码 如 下 : 


# include < stdio.h» 
# include < spu mfcio.h» 


# define N 4 

void cellComput(); 

int myRow[N] ^ attribute — ((aligned(128))); 
int res[N] attribute — ((aligned(128))); 
int mb[N][N] attribute — ((aligned(128))); 


int main() 


{ 
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inti; 
for(i=0; i«N; i++) 
res[i]-0; 
unsigned int speNumber; 
speNumber = spu read in mbox(); 
/* 获取 待 计算 矩阵 的 地 址 * / 
unsigned int ma addr, mb addr, res addr; 
ma addr- spu read in mbox(); 
mb addr- spu read in mbox(); 
res addr- spu read in mbox(); 


/* 获取 数据 * / 

mfc get(myRow, ma addr, 16, 0, 0, 0); 
mfc write tag mask(1); 

mfc read tag status all(); 


mfc get(&mb[0][0], mb addr, 64, 0, 0, 0); 
mfc write tag mask(1); 
mfc read tag status all(); 


/* 发 出 数据 已 接收 完毕 的 信号 * / 
spu write out mbox(1); 

cellComput(); 

/* 将 计算 结果 传 回 PPE* / 

mfc put(res, res addr, 16, 0 , 0, 0); 
mfc write tag mask(1); 

mfc read tag status all(); 

/* 计算 结束 * / 

spu write out mbox(2); 

return 0; 


i 


void cellComput() 
{ 
intk, j; 
for(j=0; j«N; j+) 
for(k-0; k<N; k++) 
{ 
res[j] += myRow[k] * mb[k][j]; 
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[rootüps7 tom]# ./simple 
Matrix A is: 

22 26 9 34 

53 63 48 32 

0 40 41 47 

75 34 40 60 

Matrix B is: 

8 41 85 92 

83 66 81 80 

71 72 94 81 

0 22 33 62 

Matrix A multiply matrix B is: 
2973 4014 5944 6941 

9061 10491 15176 15788 
6231 6626 8645 9435 

6262 9519 14869 16580 

The program has been sunccessfully executed. 


注意 ,由 于 该 实例 中 的 矩阵 都 是 随机 生成 的 ,所 以 每 次 运行 的 结果 会 有 所 不 同 。 
2. 简要 性 能 分 析 


模拟 器 可 精确 计算 出 SPU 程序 运行 所 花 的 CPU Cycle 数 , 据 此 可 对 Cell BE 程序 进 
行 性 能 调 优 。 如 果 需 要 模拟 器 精确 统计 出 SPU 程序 运行 所 花 的 CPU Cycle 数 的 话 , 单 
击 模拟 器 上 的 Mode 按钮 ,然后 选择 Cycle Models, 如 图 3-45 所 示 进 行 模拟 器 的 配置 。 


systemsim-cell 


B C] mysim | 
GA PPE0:0:0 | 
8c ' | se Cycle A11 
BC) sPEo || Advance Cycle | Sevice GDB | 
8 Cj Spe! : 
Ws tiggers/Breakpoin Update GUI | Debug Controls | — Options | 
8 Cj sees Emhtters | Mode | SPUModes |SPE Visualzation 
B C) sPE4 E m 
B0 SPES 
& C) SPE6 


simois] TackAlPcs | Event Log | 


图 3-45 SPU Mode 配置 


配置 完成 之 后 ,关闭 弹出 的 选项 窗口 。 然 后 ,如 图 3-44 所 示 , 在 console 中 运行 test 
程序 ,在 模拟 器 的 左 栏 中 即 可 看 见 相关 的 性 能 数据 。 

尽管 在 模拟 器 上 可 以 看 到 程序 运行 较 详细 的 性 能 数据 ,但 是 一 般 需 要 看 到 的 是 程序 
在 真实 Cell BE 平台 上 的 运行 情况 。 在 上 述 和 矩阵 乘法 程序 中 加 上 时 间 函 数 ,可 以 测 得 在 
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Cell BE 平台 上 两 个 4X4 矩阵 乘 大 约 花费 时 间 在 45ps 左右 。 时 间 测 试 程序 运行 得 到 结 
RUF: 


[rootüps7 tom]# ./time simple 
Program's running time is: 0.000045 seconds 


3. 优化 Cell BE 应 用 程序 


因为 PPE 是 一 个 通用 的 64 位 RISC PowerPC 架构 的 处 理 器 ,所 以 已 有 的 PowerPC 
应 用 程序 经 重新 编译 之 后 ,一般 情况 下 均 能 在 Cell BE 上 顺利 地 执行 。 然 而 ,该 方式 仅仅 
利用 了 PPU, 却 未 充分 发 挥 SPU 的 计算 能 力 。 

设置 一 些 编译 选项 之 后 ,Cell BE 编译 器 就 能 对 应 用 程序 进行 一 定 程度 的 自动 优化 。 
目前 ,Cell BE 的 C/C++ 编译 器 和 开发 库 对 C 和 C++ 做 了 大 量 的 扩展 ,程序 员 要 充分 利用 
Cell BE 的 多 处 理 器 架构 与 SIMD(Single Instruction Multiple Data) 能 力 ,进行 应 用 程序 
的 优化 。 

程序 员 可 在 代码 中 使 用 SIMD 指令 和 数据 结构 ,规定 编译 器 进行 哪些 方面 的 代码 优 
化 。SIMD 化 是 进行 的 主要 优化 。 经 测试 表明 ,一般 情况 下 ,代码 经 过 SIMD 化 之 后 ,其 
执行 性 能 都 得 到 了 大 幅 提高 。 利 用 并 行 计算 的 思想 和 算法 (对 计算 任务 进行 划分 ,再 把 各 
个 任务 分 配 到 不 同 的 SPU 上 ) ,对 应 用 程序 的 性 能 提高 同样 有 效 。 如 果 按 照 并 行 编程 来 
设计 一 个 应 用 程序 ,可 以 减少 指令 流水 线 的 等 待 和 停顿 ,同样 可 以 提高 程序 的 执行 性 能 。 

下 面 是 Cell BE 编程 手册 中 的 一 个 例子 ,来 看 看 它 是 如 何 对 代码 进行 SIMD 优化 的 。 
其 中 ,array_sum 是 一 个 对 数组 进行 求 和 的 函数 。 


int array_sum(unsigned char nums[16]) 
{ 
int sum= 0; 
inti; 
for (i20; i<16;++i) 
1 
sum += nums[ i]; 
} 
returnsum; 


} 
如 上 所 示 array sum 是 一 个 普通 的 求 和 函数 。 它 通过 循环 遍历 数组 ,对 数组 的 每 个 
元 素 进行 求 和 。 在 ps 上 运行 这 个 程序 , 测 得 求 和 时 间 如 下 所 示 : 


[root@ps7 tom] # ./time_sum 
Time of sum is 96 ns. 


下 面 , 利 用 Cell BE 编译 器 对 SIMD 指令 的 支持 ,来 消除 上 述 代码 中 不 必要 的 串 行 循 
环 , 从 而 提高 代码 的 运行 效率 。 改 进 后 的 代码 (函数 array_sum 对 应 函数 vectorized_ 


a 
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sum) 如 下 : 


union 
{ 
int s[4]; 
vector signed int v; 
} sum; 
int vectorized sum(unsigned char nums[16]) 
t 
vector unsigned char v nums; 
vector unsigned int zero = (vector unsigned int)(0]; 
v nums- vec perm(vec ld(0, nums), vec ld(16, nums), vec lvsl(0, nums)); 
sum. v = vec sums((vector signed int)vec sum4s(v nums, zero), (vector signed int) zero); 
return (sum.s[3]); 


) 

改进 之 后 ,函数 vec perm 从 偏 移 地 址 0 一 16 ,以 左 对 齐 的 方式 , 读 入 nums 中 的 16 个 
字 节 ,构成 vector。vec_sums 则 是 对 两 个 vector 进行 求 和 。 此 处 ,vec_sum4s 将 变量 
vnums 按 四 路 并 行 的 方式 与 一 个 值 为 全 0 的 vector 进行 向 量 求 和 , 即 相 当 于 对 nums 的 
元 素 进 行 逐个 相 加 。 在 ps 上 运行 这 个 程序 , 测 得 求 和 时 间 如 下 所 示 : 


[root@ps7 tom]# ./time vec sum 
Time of sum is 73 ns. 


可 见 , 经 过 优化 后 的 数组 求 和 时 间 减 少 了 23 ns, 比 原来 性 能 提高 了 约 24%. 


Brna 


本 节 主 要 介绍 了 初学 者 进行 Cell BE 编程 需要 掌握 的 基本 内 容 , 主 要 包括 : 搭建 Cell 
BE 编程 环境 ,了 解 Cell BE 程序 的 基本 框架 和 运行 过 程 ,以 及 Cell BE 程序 并 行 化 与 优化 
的 相关 知识 。 本 节 虽 然 对 与 Cell BE 编程 有 关 的 更 深层 次 的 知识 (包括 DMA ,通信 与 异 
步 . 向 量 编程 等 高 阶 内 容 ) 有 所 涉及 ,但 读者 如 果 和 希望 进一步 了 解 Cell BE 编程 的 相关 知 
识 的 话 , 可 深入 学 习 Cell BE 编程 手册 等 资料 。 
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方程 组 求解 的 并 行 化 


4.1 稀 虹 线 性 方程 组 及 其 求解 方法 


4.1.1 稀 朴 线性 方程 组 的 应 用 


随 着 应 用 规模 的 不 断 扩大 与 计算 机 技术 的 快速 发 展 ,科学 计算 在 计算 机 应 用 领域 中 
占据 着 越 来 越 重 要 的 地 位 。 在 科学 与 工程 计算 领域 (包括 计算 化 学 、 油 藏 模拟 、 地 震 资料 
处 理 .数值 天 气 预 报 、 电 力 系 统 仿 真 设计 以 及 高 维 方 程 数值 求解 等 ) 中 ,线性 方程 组 的 求解 
尤其 是 大 规模 稀疏 线性 方程 组 的 求解 处 于 核心 的 地 位 。 

大 量 的 实验 结果 表明 ,在 许多 问题 的 求解 过 程 中 ,线性 方程 组 求解 所 花 的 时 间 会 占 到 
总 的 执行 时 间 的 一 半 以 上 ,从 而 成 为 整个 问题 求解 的 瓶颈 。 由 于 稀 朴 矩阵 包含 了 大 量 的 
零 元 素 , 因 此 需要 设计 专门 的 存储 格式 与 特定 算法 ,才能 满足 高 效 求解 此 类 问题 的 需求 。 
本 章 主要 介绍 大 规模 稀 跑 线性 方程 组 求解 的 迭代 算法 ,并 对 一 个 计算 案例 的 并 行 化 进行 
详细 分 析 。 


4.1.2 大 规模 稀疏 线性 方程 组 求解 的 迭代 算法 


对 于 大 规模 稀 朴 线性 方程 组 求解 ,通常 的 方法 有 直接 法 和 选 代 法 这 两 种 。 其 中 ,直接 

法 是 通过 对 稀 朴 符 阵 进行 分 解 计算 求解 来 获得 方程 组 的 解 ， ti 
中 会 引入 大 量 的 填 人 元 ,从 而 增加 存储 的 开销 ,同时 ,直接 法 的 算法 复杂 度 也 比较 高 。 
和 迭代 法 则 通过 不 断 地 循环 先 代 , 当 方 程 组 的 解 满足 收敛 条 件 时 ,终止 循环 。 en 
问题 来 说 ,和 迭代 法 能 够 在 较 少 的 迭代 次 数 情况 下 满足 收 剑 要求。 而 且 , 一 般 来 说 ,迭代 法 
的 存储 开销 也 比 直接 法 的 存储 开销 小 。 采 用 迁 代 法 时 ,方程 组 求解 的 收敛 性 依赖 于 和 矩阵 
本 身 的 特性 。 对 于 有 些 问 题 ,迭代 法 可 能 不 收敛 ,而 对 于 条 件数 较 好 的 数值 问题 ,迭代 
法 却 能 快速 地 收敛 。 目 前 ,对 大 规模 稀 朴 线性 方程 组 求解 ,迭代 法 已 成 为 主流 计算 
方法 。 


4.1.3 Krylov 子 空 间 和 迭代 法 
1. Krylov 子 空 间 概 念 
Krylov 子 空间 和 迭代 法 是 一 种 用 于 求解 形 如 Ax — b 的 方法 ,从 而 解决 一 些 大 规模 线性 


第 4 章 并行 应 用 实例 大 规模 稀 藤 线性 方程 组 的 并 行 化 
方程 组 的 求解 问题 。 

对 于 给 定 线性 方程 组 hr 一 0( 其 中 ,A JE n X n 的 矩阵 ) ,定义 m 维 Krylov 子 空间 为 ， 

开 。(4A,r) = spanir.Ar.A?r, =, A'r} 

给 定 初 始 的 C00 «E m 维 空间 K( 右 子 空间 ) 中 寻找 xz 的 近似 解 工 ”满足 残 向 量 ”一 
b— Ax? 5j m 维 空间 L( 左 子 空间 ) 正 交 , 即 b—Ar” 上 工 , 把 该 条 件 称 为 Petrov-Galerkin 
条 件 。 

Krylov 子 空间 迭代 法 就 是 将 求解 Ax — b 的 过 程 转化 为 如 下 的 迭代 格式 来 进行 
求解 : 

Kr? = Kr® +b—Ar® 

其 中 ,K 是 构造 的 近似 于 A 的 矩阵 ,其 主要 的 思路 就 是 将 一 个 较为 复杂 的 问题 逐步 

转换 为 可 以 求解 的 子 问 题 。 


2. Krylov 子 空间 迭代 法 分 类 


根据 K,, ML 的 不 同 ,可 将 Krylov 子 空间 迭代 法 进行 分 类 ,主要 有 如 下 四 类 (参考 自 
文献 L2] 一 [3]) 。 

1) 正 交 投 影 方法 

M L=K„ (A, r) 时 , 称 这 类 Krylov 子 空间 迭代 法 为 正 交 投 影 法 。Hestenes 和 
Stiefe 提出 的 共 配 梯度 法 (CG) 是 其 中 最 重要 的 方法 之 一 , 它 要 求 A 为 对 称 正定 矩阵 。 
CG 的 算法 流程 如 图 4-1 所 示 。 


1 Compute r,: =b- Axs. p : = ro 
2 Forj-70,1,...,until convergence Do: 


a: = (r,,r,)/ (Bp), b) 
30 tap, 
rj: = ry — ajAp; 


Bi: = (Eysi rEge1 )/ (13, r3) 


Pisi: = Tyr tb 
EndDo 


4-1 正 交 投影 法 (CG) 的 算法 流程 


onv O0 uU ^U 


BR CG 之 以 外 ,全 正 交 化 法 (FOM) 以 及 正 交 残 差 法 (ORTHORES) 也 属于 正 交 投影 
法 ,不 过 这 两 种 方法 不 要 求 4 为 对 称 正定 矩阵 。 

2) 正 交 化 方法 

4 LAK „(A ,站 时 , 称 这 类 Krylov 子 空间 迭代 法 为 正 交 化 法 。Saad 提出 的 广义 极 
小 残 差 法 (GMRES) 是 这 类 方法 的 典型 代表 。 这 类 方法 的 使 用 范围 广泛 ,因此 一 直 是 人 
们 研究 的 重点 ,有 许多 的 变形 方法 。GMRES 的 算法 流程 如 图 4-2 所 示 。 


a 


, dn 并 行 计算 机 及 编程 基础 


1 Compute r, =b- Ax, B: = || ro ls,andv,:=r,/B 

2 For j=1,2,...,m Do: 

3 Compute w; : = Av; 

4 For i=1...j Do: 

5 hy: = (wvi) 

6 w: =w -hyv 

7 EndDo 

8 hjsi = || w || 2. Ifh;,,,; = 0 set m: = j and go to 11 
9 Vj = Wi/hirs,s 

10 EndDo 


11 Define the (m+ 1) X m Hessenberg matrix H, = (hi ji<i<sii<i<s. 
12 Conpute y, the minimizer of || ge, — H,y || :and x, = x, + V,y, 
图 4-2 正 交 化 法 (GMRES) 的 算法 流程 


Jt 4i 4x25 (Conjugate Residual. CR) 法 及 其 推广 形式 GCR (Generalized Conjugate 
Residual) 法 也 属于 正 交 化 方法 。 正 交 化 法 具有 极 小 残 差 的 特性 ,但 是 随 着 迭代 次 数 的 不 
断 增加 ,其 计算 量 和 存储 需求 也 会 随 之 增加 ,因此 ,在 实际 的 计算 过 程 中 往往 需要 采用 重 
启动 技术 。 

3) 双 正 交 化 法 

当 工 二 Kn(AT,r) 时 , 称 这 类 Krylov 子 空间 迭代 法 为 双 正 交 化 法 。 这 类 方法 主要 用 
于 A 为 非 对 称 的 情况 下 。Lanczos Pè hi ff] IAE jg Hh HE i: CBICGO Ji XC rp fit JE A (09 7r 3x. 
BiCG 的 算法 流程 如 图 4-3 所 示 。 


1 Compute r, : = b- Ax.Choose ri such that(r,,r; ) 750. 
2 Setp:7rn,p:7r, 

3  Forj-70,1,...,until convergence Do: 
4 aj: = (r,r; )/(Ap pj ) 

5 X41: =X + ap 

6 r, r;- aj Àp; 

7 rja: =r; -aap 

8 B: = suu rain) 

9 Bia: Tt + Bip 

10 piai = rja + Rp] 

11 EndDo 


图 4-3 双 正 交 化 法 (GMRES) 的 算法 流程 


BiCG 的 计算 要 用 到 AT ,而 且 收敛 性 不 佳 。 为 了 避免 这 些 不 足 之 处 ,人 们 在 此 基础 上 
提出 了 一 些 其 他 方法 ,如 共 轿 梯度 平方 法 (CGS) J^ Xt JE S Be EF 77 1: (GCGS) , i d th 
度 稳定 性 法 (BiCGSTAB) 以 及 道 最 小 残 差 法 (QMR) 等 。 

4) 法 方程 组 法 

M L-—K, GT AAT DI | PRX% Krylov 子 空间 和 迭代 法 为 法 方程 组 法 。 这 类 方法 的 主 


m 
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要 思想 是 将 CG 法 应 用 于 求解 法 方程 组 AT Ax —AT b R ATAu —b.x—A'u,. KP .CGNR 
和 CGNE 是 这 类 方法 的 典型 算法 。CGNR 与 CGNE 的 算法 流程 如 图 4-4 与 图 4-5 
所 示 。 
Compute r, = b— Axs, Ze = Fr, p» = z;. 
For i- 0, ...,until convergence Do: 
Wi = Ap; 
a= Ilzi 27 Mn HE 


Xit1 7X tap 


Zii = A'r 
B= Ilzi N/l z l3. 


Piri = Zini * Bips 
EndDo 


图 4-4 法 方程 组 法 (CGNR) 的 算法 流程 


1 
2 
3 
4 
5 
6 Ki = rs 7 GM. 
7 
8 
9 
1 


o 


Compute r, = b- Ax,, p, = 'r,. 
For i=0,1,...,until convergence Do: 
a, 7 (rr), (pi, p.) 
Xo 7X tap 
Iisi 7r,-aÀp, 
Bio (rr )/(r,r) 
pia = rS: + Bp. 
EndDo 
图 4-5 法 方程 组 法 (CGNE) 的 算法 流程 


oa ua- 


4.1.4. 预 处 理 技术 简介 
1. ILU 预 处 理 


一 般 地 , 预 处 理 就 是 将 线性 方程 Ar =b 转化 为 其 等 价 形 式 M Ar — M b 的 过 程 。 
其 中 ,M 是 对 A 的 近似 ,被 称 为 预 条 件 子 。 通 过 选择 M, 可 使 预 处 理 之 后 的 线性 方程 比 原 
线性 方程 更 易于 采用 和 迭代 法 进行 求解 。 

预 条 件 的 方法 有 很 多 ,对 于 不 同 的 应 用 通常 会 采用 不 同 的 预 条 件 子 。 比 较 常见 的 一 
种 方法 是 不 完全 LU 分 解 (incomplete LU factorization ,ILU) 。 该 方法 的 主要 思想 是 对 
原 线性 方程 的 系数 矩阵 4 进行 分 解 . 即 A 二 LU 一 R。 其 中 ,L AU 分 别 是 下 三 角 和 矩阵 和 上 
三 角 和 矩阵 ,R 是 剩余 矩阵 。 通 过 预先 指定 哪些 位 置 的 元 素 为 0, 从 而 限制 填 和 人 元 ( 见 参考 
文献 [1])。 基 本 的 ILU 算法 流程 如 图 4-6 所 示 ( 见 参考 文献 [3]) ,其 中 的 P 是 定义 元 素 
为 0 的 模式 集合 (zero pattern set) 。 


p 


m 


并 行 计 算 机 及 编程 基础 


0  Foreach(i,j)€P set ai =0 

1  Fork-1,..,n-1Do: 

2 For i=k+1,n and if(i,k)€ P Do: 

3 ax: = ax/au 

4 For j=k+1,...,n and for(i, j) € P Do: 
5 01: 7 Q4 QQ 

6 EndDo 

7 EndDo 

8 EndDo 


图 4-6 基本 的 ILU 算法 流程 


除了 最 基本 的 ILU(0) 预 处 理 之 外 ,还 有 其 他 变化 形式 。 例 如 ( 见 参考 文献 [4]): 

。 多 层 填充 的 不 完全 分 解 预 条 件 ILU ,其 主要 目的 是 为 了 弥补 ILU(0) 预 处 理 的 
不 足 , 可 在 不 完全 分 解 因子 中 采用 填 人 元 。 此 时 ,一 般 有 两 种 填充 方法 :一 种 基于 
矩阵 结构 分 析 来 进行 填充 ; 男 一 种 是 基于 对 分 解 因子 中 元 素 值 大 小 的 判定 来 进行 
填充 ; 

。 HME ILU 预 条 件 , 即 当 在 分 解 过 程 中 某 些 元 素 的 值 小 于 设 定 的 阔 值 时 
EFR. 


2. 稀疏 近似 逆 预 条 件 


稀 朴 近似 逆 是 一 个 稀 朴 矩阵 M, 它 一 般 是 对 稀 朴 矩阵 A fI A C IgA pet go 
似 。 稀 朴 近 似 逆 的 主要 优势 在 于 它们 可 以 并 行 计算 ,具有 良好 的 并 行 性 。 其 主要 思想 是 ， 
和 矩阵 M 可 通过 某 种 方式 被 构造 出 来 , 预 条 件 过 程 是 一 个 矩阵 向 量 运 算 且 可 被 并 行 化 。 这 
种 类 型 的 预 条 件 子 可 以 求解 一 些 ILU 预 处 理 难以 解决 的 问题 。 

当前 , 稀 朴 近似 逆 预 条 件 技术 大 致 有 三 种 ( 见 参考 文献 L[5]) :基于 Frobenius 范 数 极 
小 化 、 分 解 的 稀 朴 近似 逆 、 基 于 ILU 分 解 计 算 的 稀 朴 近似 逆 。 每 种 预 条 件 子 都 有 一 些 
不 同 的 构造 方式 且 每 种 方式 都 有 其 优 缺 点 ,需要 根据 实际 问题 的 特点 采用 合适 的 
方法 。 


4.2. 大 规模 稀疏 线性 方程 组 求解 案例 


4.2.1 Helmholtz 方程 及 其 计算 特征 


某 个 气象 模式 对 大 气 的 动力 框架 最 终 被 转化 为 一 个 Helmholtz 方程 ,求解 
Helmholtz 方程 就 是 求解 一 个 大 规模 稀 朴 线性 方程 组 。 以 全 球 25km 算 例 为 例 ,其 规模 
达到 了 1440X720X36 王 37 324 800 维 。 
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在 全 球 三 维 网 格 离散 化 之 后 ,每 个 内 点 涉及 到 19 个 离散 点 ,其 具体 格式 如 图 4-7 
所 示 。 
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图 4-7 三 维 网 格 的 空间 离散 关系 


对 于 其 中 的 某 一 点 Gi, je k), Helmholtz 方程 的 形式 如 下 : 
Mra OD RT tE a E 
tO nma tO Durnas te Dera te hanet k | 
ds a HO M inua FE Dara ET i 
Fe Dini Fe Tart oat a Fa n teu 


== Gua 
在 上 式 中 ,一 共有 19 个 系数 。 对 变量 按照 坐标 进行 自然 排序 就 可 得 到 一 个 多 对 角 、 
稀 政 、 非 对 称 的 线性 方程 组 ; 


Ax =b 
其 中 ,4 为 非 对 称 和 矩阵 ,4 中 每 行 最 多 有 19 个 非 零 元 素 ,网 格 自然 排序 之 后 最 终 形成 19 
对 角 和 矩阵 ,4 具有 对 角 占 优 特性 。 
以 全 球 25km 的 算 例 为 例 ,经 过 对 角 规格 化 之 后 ,Ci 二 1.0,Cwo 和 Cis 在 107! 量 级 ,Cs 
和 Cs 在 10 习 量 级 ,C, 和 C 在 10“， 量 级 ,而 其 他 值 均 小 于 10“，。 值 得 一 提 的 是 ,在 
Helmholtz 方程 求解 过 程 中 ,A 矩阵 不 变 ,只 有 右 端 项 随时 间 变 化 。 


" 
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4.2.2 Helmholtz 方程 的 求解 
1. GCR 算法 


目前 ,Helmholtz 方程 的 求解 采用 GCR (^ Xt 3E 4g 4 250 FA. JE F krylov FÈ f] 3 
代 法 。 采 用 GCR 算法 的 理由 是 其 收敛 速 度 较 快 , 且 实 现 较 为 容易 。 计 算 流程 如 图 4-8 所 
示 ( 见 参考 文献 L[3]) 。 


m 


Compute r, = b - Ax; . Set p, = ro 


2  Forj-0,1,...,until convergence Do: 
(r;, Ap) 
3 = (mvapi 
(apivap) 
4 Xj+ı =X; tap 
5 ra =r} oApy 
(Ar,.,, Ap.) , i 
6 Compute B; = — ,foriz-0,1,..., 
pute Ba 7^ (ani BD S i 
7 Pisi = Tit + » [221 
8  EndDo 


图 4-8 GCR 的 算法 流程 


GCR 算法 在 数学 上 与 经 典 的 GMRES 算法 等 价 , 从 其 算法 流程 中 可 以 看 到 ,需要 存 
fik p, 和 Api, 且 每 一 迭代 步 的 运算 操作 代价 比 GMRES 高 50%。 但 它 相 对 于 GMRES 的 
实现 更 为 简单 , 且 易 于 并 行 实现 。 与 GMRES 类 似 , 它 也 可 以 采用 重启 动 的 方法 。 


2. ILU 预 处 理 


在 4.1.4 节 中 对 一 般 的 ILU 预 处 理 做 了 介绍 。 特 别 地 ,对 于 有 限 差分 方程 ,可 将 模 
版 (stencil) 定 义 为 差分 网 格 的 一 个 局 部 基本 单元 。 在 离散 差分 方程 中 ,与 模版 中 心 各 点 
直接 相关 的 格 点 都 被 包含 在 模版 中 。 针 对 这 一 问题 ,由 三 维 Helmholtz 方程 导出 十 九 对 
角形 式 的 矩阵 A, 对 其 进行 ILU(0) 分 解 , 其 中 的 矩阵 LL 和 U 可 通过 递 推 关系 获得 。 

在 ILU(0) 的 方案 中 ,分 解 之 后 的 L 和 UU 的 乘积 与 4 相 比 ,在 所 有 非 零 位 置 处 均 相 
等 ,生成 的 填 人 元 被 忽略 。 从 变量 求解 的 顺序 上 来 看 ,该 方案 实际 上 是 沿 着 主 对 角 线 方向 
的 两 条 “波浪 ”来 依次 交替 得 到 上 三 角 和 矩阵 和 下 三 角 和 矩阵 的 系数 。 

然而 ,一 些 实验 结果 却 表明 ,采用 十 九 对 角形 式 的 预 条 件 虽 然 可 以 构造 更 好 的 预 条 
件 ,以 使 GCR 迭代 的 次 数 降低 。 但 是 ,十 九 对 角 的 矩阵 ILU(0) 分 解 过 程 十 分 复杂 ,而 且 
生成 ILU 和 使 用 ILU 的 时 间 也 会 增加 。 因 此 ,有 必要 寻找 ILU 预 处 理 与 迭代 收敛 之 间 
的 平衡 ,使 得 总 的 计算 时 间 达 到 最 优 。 

通过 对 原 矩 阵 十 九 对 角 系数 的 分 析 , 可 以 发 现 垂直 层 中 间 点 (Ci ,Cw ,Cis) 上 的 系数 
的 数量 级 为 110 ,(C: ,Ca ,Ci,Cs) 上 的 系数 约 为 10 一 10 王 ,其 他 结 点 上 的 系数 为 
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10“。 忽 略 值 较 小 的 系数 之 后 ,将 其 保留 为 七 对 角形 式 。 这 种 预 条 件 虽 然 相对 粗糙 ,但 是 
实现 起 来 较为 容易 ,而且 也 便于 得 到 不 同 精度 的 ILU(k) 预 条 件 子 。 为 了 避免 通信 开销 ， 
ILU 预 处 理 过 程 只 在 分 块 的 内 部 进行 。 


3. 实际 采用 的 计算 模式 


通过 对 迭代 算法 和 预 处 理 的 分 析 , 得 到 如 下 实际 采用 的 带 预 处 理 的 GCR(k) 算 法 。 
其 中 ,k 为 重启 动 值 ,M 为 预 处 理 和 矩阵 。 带 预 处 理 的 GCR(k) 算 法 流程 如 图 4-9 所 示 o 


1 Compute R, =b- Ax, ,R, - M ' R, p = ĝe 
2  Doiz1,2,..,until convergence 
3 ai- = «Ria, Api-1>/<Api-1 , Api-1> 
4 X =Xi-1 + ai iDici 
5 R; = Ri-: 一 ai-:Rpi-: 
6 及 =MR, 
7 Do j= int[(i-1)/k]k,...,i- 1 
8 Bs = — «M8, , Ap,» / «hp; , Api» 
9 

H 
10 poR* >) Bsp 


jmim [CD /Kk 
11 ap, = 了 R+ DD) Buap 
12 jeimCc-D/A]ke 
图 4-9 带 预 处 理 的 GCR(k) 算 法 流程 


在 实现 过 程 中 ,上 述 带 预 处 理 的 GCR(k) 算 法 在 step2 一 step12 中 需要 进行 多 次 重复 

迭代 ,每 次 迭代 需要 完成 的 计算 包括 : 

* 2 次 稀疏 矩阵 向 量 乘 (SpbMV)( 其 中 ,step3 和 step8 各 进行 一 次 ); 

。 1 次 针对 七 对 角 预 处 理 和 矩阵 的 前 代 回 代 计 算 (step6 运算 操作 ,该 部 分 主要 是 应 用 
预 处 理 条 件 ,利用 前 代 回 代 来 实现 。 在 此 之 前 的 生成 过 程 中 ,将 七 对 角 预 处 理 矩 
阵 进 行 近 似 分 解 ,产生 上 三 角 和 矩阵 和 下 三 角 和 矩阵 ); 

* 最 多 m 十 3 次 向 量 内 积 计算 。 其 中 ,m 为 循环 生成 的 子 空间 维度 (step3 有 2 次 向 
量 内 积 计 算 。 在 循环 过 程 中 ,用 于 校 验 误差 d 时 需要 1 次 向 量 内 积 , step? 和 
step8 最 多 需要 m 次 向 量 内 积 计算 ); 

。 最 多 m 十 2 次 向 量 乘 加 操作 (step4 和 step5 有 2 次 向 量 乘 加 操作 ,step10 最 多 有 
m 次 向 量 乘 加 操作 ) 。 

GCR 的 并 行 计算 与 串 行 计算 的 不 同 之 处 在 于 计算 区 域 的 不 同 。GCR 在 并 行 计算 
时 ,每 个 进程 仅 对 自己 所 负责 的 求解 区 (数据 区 、 求 解 区 和 halo 区 的 定义 详 见 后 续 的 
图 4-11) 进 行 上 述 计算 即 可 。 但 为 了 求解 区 计算 的 正确 性 ,计算 需要 涉及 到 halo 区 中 数 
据 的 通信 和 访问 操作 。 以 全 球 25km 的 算 例 (并 行 度 为 1024 时 ) 为 例 , 单 分 区 的 计算 量 约 
为 3. 5M 个 乘 加 操作 ,而 且 随 着 进程 数目 的 增加 该 计算 量 还 可 能 进一步 降低 。 
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4.3 Helmholtz 方程 计算 的 并 行 化 


4.3.1 并 行 性 分 析 


对 Helmholtz 方程 进行 水 平 两 维 划分 ,如 图 4-10 所 示 。 


图 4-10 Helmholtz 方程 的 水 平 两 维 划分 示意 图 


在 Helmholtz 方程 的 并 行 计算 中 ,每 个 子 区 域 ( 非 边界 区 域 ) 都 与 上 、 下 、 左 、 右 四 个 子 
区 域 相关 ( 见 参 考 文献 [6])。 处 理 器 结 点 仅 计算 本 结 点 上 的 数据 空间 (求解 区 ) ,但 在 模式 


图 4-11 Helmholtz 方程 并 行 计算 中 的 
子 区 域 数据 空间 示意 图 


4.3.2 通信 模式 


的 计算 过 程 中 可 能 需要 用 到 其 他 处 理 器 结 点 上 的 
变量 值 ,因此 通常 会 在 本 机 上 存储 部 分 相 邻 处 理 器 
的 变量 值 ,使 得 在 单个 处 理 器 上 变量 的 存储 空间 
(数据 区 ) 一 般 要 比 计算 空间 大 。 变 量 存 储 空间 中 
与 其 他 处 理 器 结 点 相交 的 部 分 就 是 通常 所 说 的 重 
ZEDXBEChalo K). WA 4-11 所 示 , 由 于 各 处 理 机 
的 计算 不 重合, 在 计算 过 程 中 可 能 导致 本 机 halo 
区 中 的 值 与 邻近 处 理 机 的 计算 值 不 一 致 ,因此 在 必 
要 时 需要 对 halo 区 进行 同步 , 即 需要 对 halo 区 的 
变量 值 进行 通信 。 目 前 ,在 Helmholtz 方程 中 ， 
halo 区 的 大 小 通常 采用 1 圈 。 


在 划分 计算 区 域 的 过 程 中 ,会 引入 通信 开销 。 而 且 通 信 开 销 占 整个 计算 代价 的 比重 
很 大 ,因此 需要 合理 设计 通信 模式 。Helmholtz 方程 的 求解 主要 涉及 到 两 类 通信 问题 , 即 


全 局 通信 和 邻居 通信 。 
1. 全 局 通信 


通过 对 算法 流程 的 分 析 可 知 ,在 step3 和 step8, 还 包括 检查 收敛 条 件 , 均 需 内 积 运 
算 , 而 内 积 运 算是 对 每 个 进程 的 计算 结果 求 和 并 将 所 得 到 的 计算 结果 传 回 每 个 进程 。 
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MPI Allreduce 函数 可 完成 下 面 的 操作 :组 内 所 有 进程 都 被 作为 根 ,分 别 执行 一 次 规约 操 
作 , 操 作 完 毕 之 后 所 有 进程 接收 缓冲 区 的 数据 均 相 同 。 该 操作 等 价 于 首先 进行 一 次 MPI 
_Reduce 操作 然后 再 执行 一 次 MPI_Bcast 操作 。 

对 于 每 一 次 的 循环 迭代 , 均 需 两 次 全 局 通信 (Allreduce)。 消 息 的 长 度 是 m 十 4 个 
Double 数据 (其 中 ,m 从 1 到 上 循环 ) ,总 的 消息 长 度 约 为 100 FW. 


2. 邻居 通信 


除了 全 局 通信 ,在 GCR 算法 中 ,还 采用 了 邻居 通信 和 模式。 该 模式 主要 用 于 边界 数据 
的 更 新 , 即 重 倒 区 的 数据 交换 。 在 极点 区 域 ,采用 的 是 MPI 的 send 和 recv 函数 ,其 他 区 
域 则 采用 sendrecv PR X 

两 次 边界 数据 交换 (一 次 是 step6 之 后 需要 重新 更 新 halo 区 的 数据 , 另 一 次 是 在 
step8 中 SpMV 操作 之 后 需要 重新 更 新 周围 数据 ) 。 

在 消息 长 度 上 , 当 halo 区 的 数值 为 1 时 , 则 需要 交换 的 数据 有 2X(I 十 2) X sizeof 
(float) 十 2 X(J 十 2) X sizeof (float) ,总 共 进 行 四 次 数据 交换 ,涉及 到 周围 相关 的 8 个 进 
程 。( 其 中 ,I 为 经 度 方向 上 的 网 格 大 小 ,J 为 纬度 方向 上 的 网 格 大 小 ) 

在 通信 模式 上 ,GCR 算法 以 近邻 通信 为 主 。 而 在 极 区 引入 轴 对 称 通 信 , 在 边界 区 引 
入 循环 通信 ,其 具体 的 通信 拓扑 如 图 4-12 所 示 。 


图 4-12 某 个 气象 模式 中 GCR 算法 的 通信 模式 


在 通信 频次 和 消息 大 小 上 ,通过 四 次 邻居 通信 ,与 邻近 的 8 个 进程 完成 了 边界 数据 的 
传人 与 传 出 。 以 全 球 25km 的 算 例 ( 并 行 度 为 1024 时 ) 为 例 , 其 通信 量 约 为 4KB。 

在 GCR 算法 中 ,邻居 通信 模式 的 具体 实现 过 程 如 下 所 示 。 

1) 在 东西 方向 上 交换 数据 (参见 图 4-13) 

由 于 在 东西 方向 上 其 邻居 通信 可 看 成 一 个 环 ,因此 引入 循环 通信 。 包 括 如 下 两 个 
JE. 

* 数据 从 西 到 东 (sendrecv); 

。 数据 从 东 到 西 (sendrecv)。 


m 
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2) 在 南北 方向 上 交换 数据 (参见 图 4-14) 

非 极 区 : 

。 数据 从 南 到 北 (sendrecv); 

* 数据 从 北 到 南 (sendrecv) 。 

极 区 : 

。 接收 和 发 送 非 极 区 边界 的 相 邻 数据 。 需 要 注意 send 和 recv 的 顺序 (南极 与 北极 
的 这 两 个 操作 正好 相反 ) ,否则 会 导致 死 锁 。 

* 在 极 区 内 部 ,采用 轴 对 称 通信 , 即 以 极点 为 中 心 的 对 称 数据 交换 ,如 图 4-12 中 黄 
色 箭 头 所 示 o 


图 4-13 在 东西 方向 上 交换 数据 的 示意 图 图 4-14 在 南北 方向 上 非 极 区 交换 数据 的 示意 图 


4.4 实际 测试 结果 与 性 能 优化 


4.4.1 测试 环境 与 测试 用 例 


将 某 个 气象 模式 在 天 河 一 号 上 进行 测试 ,天 河 一 号 的 配置 情况 如 下 : 

。 每 个 计算 结 点 集成 了 2 个 Intel X5670 2. 93GHz 的 六 核 处 理 器 ; 

。 每 个 服务 结 点 包含 2 个 Intel EP CPU.32G 内 存 ; 

。 互 连 通信 子 系统 为 两 级 Infiniband QDR 互 连 ,单个 通信 和 链 路 的 通信 带宽 为 40Gb/s， 

延迟 1. 2us; 

。 I/O 存储 子 系统 为 全 局 分 布 共享 的 并 行 L/O 结构 ,Lustre 并 行文 件 系 统 。 

对 不 同 的 矩阵 规模 进行 实际 测试 ,测试 用 例 为 矩阵 维度 分 别 为 720 X360X36 和 
1440X720X36。 
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4.4.2 测试 结果 及 其 分 析 
1. 原 算法 测试 结果 及 其 分 析 


在 上 述 测试 系统 上 ,对 两 种 分 辩 率 的 数据 分 别 进行 了 测试 。 图 中 , 横 坐 标 为 进程 数 ， 
纵 坐 标 为 加 速 比 。 

当 和 矩阵 维 数 720X360X36 时 ,实际 测试 结果 如 图 4-15 所 示 。 

当 和 矩阵 维 数 为 1440 X720X36 时 ,实际 测试 结果 如 图 4-16 所 示 。 


8 
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5 S | 
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0 256 512 1024 2048 256 512 1024 2048 
图 4-15 Helmholtz 方程 50 公里 分 辨 率 时 的 图 4-16 Helmholtz 方程 25 公里 分 辨 率 时 的 


加 速 比 加 速 比 


从 上 述 的 实际 测试 结果 可 以 看 出 ,Helmholtz 方程 的 并 行 求解 具有 很 好 的 可 扩展 性 ， 
能 够 满足 并 行 求解 大 规模 稀 朴 线性 方程 组 的 要 求 。 


2. 优化 预 处 理 技术 


对 预 处 理 进 行 了 如 下 优化 ,以 实现 原 有 算法 的 性 能 改进 。 

1) 优化 局 部 预 处 理 

将 局 部 预 处 理 从 ILU(0) 修 改 为 ILU(2), 即 采用 更 高 级 别 的 预 处 理 , 考 虑 了 一 部 分 
分 解 产 生 的 填 人 元 ,以 提高 计算 收敛 性 ,降低 通信 次 数 及 其 相应 开销 。 

采用 的 ILU(2) 属 于 算法 ILU(p) 中 的 一 种 ,一 般 形式 的 ILU(p) 算 法 如 图 4-17 Bron 。 


For all nonzero elements aij, define lev(aij) =0 
For i=2,...,n,Do 
For each k= 1,...,i- 1 and for lev(aik)< = p, Do 
Compute aik = aik/akk 
Compute ai* -ai* — aikak * 
Update the levels of fill of the nonzero ai, j's using levij = min{ levij, levik  levkj + 1) 
EndDo 
Replace any element in row i with lev(aij)>p with zero 
EndDo 


图 4-17 一 般 形式 的 ILU(p) 的 算法 流程 
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其 中 ,每 个 元 素 aij 对 应 的 levij 初始 化 定义 如 下 : 
. (0 ifajzZOorij 
levij— 
co otherwise 


与 十 九 对 角形 式 的 预 处 理 ILU(0) 相 类 似 ,也 可 使 用 模板 来 定义 格 点 系数 。 七 对 角 
形式 的 预 处 理 ILU(2) 之 后 L 和 1 的 模板 及 系数 如 图 4-18 所 示 。 
可 通过 如 下 公式 来 计算 : 
stencili (LU) — 1 X stencili(U) + ai X stencil (U) + b; X stencil; mn CU) 
十 ci X stencili mn CU) + d; Xstencil; 4,4; (U) + e; X stencili 44:2 CU) 
+ f; X stencili sisi CU) + h; X stencili a CU) + j; X stencili aisi (U) 


十 ki X stencil mn CU) + l; X stencili man CU) + m; X stencili 4,45 (U) 


简单 来 说 ,ILU(2) 相 对 于 原来 的 七 对 角 ILU. m f 
(0) 来 说 ,考虑 了 一 些 生成 的 元 素 , 即 :模版 L 中 的 系 ud i 
数 c.dse\fhJj\lsm 以 及 模版 U 中 的 系数 sr、p、t、 Stencil(L) A " ei i 
qo、vVv、w。 该 算法 使 得 LU 4 fe LU f 5 (9 xc E MORES! d 
阵 与 原 和 矩阵 更 为 接近 , 预 处 理 效果 更 好 。 使 用 公式 ki li mi 
中 系数 的 计算 过 程 也 可 依次 对 变量 进行 求解 。 Sitmn-2_ritmn-l 

2) 限制 型 Additive-Schwarz 预 处 理 . 

原 预 处 理 采用 的 是 局 部 预 处 理 , 即 在 划分 的 区 se i dismn-mel 


oi«mn-2m 


域内 部 进行 预 处 理 。 其 好 处 在 于 不 必 考 虑 全 局 通 
信 ,缺点 是 割裂 了 划分 块 与 块 之 间 的 关系 ,影响 到 预 
处 理 的 效果 。 

为 了 改进 原 有 的 局 部 预 处 理 , 采 用 基于 限制 型 图 4-18 七 对 角形 式 的 ILU(2) 预 处 理 
Additive-Schwarz 预 处 理 的 重 登 预 处 理 策略 。 例 a 
如 ,可 以 考虑 如 图 4-19 所 示 的 二 维 划分 ,在 经 度 和 纬度 方向 上 的 进程 数目 均 为 2。 


zi vil 


图 4-19 重合 预 处 理 改进 示意 图 


在 图 4-19 中 ,红色 部 分 表示 :针对 预 处 理 和 矩阵, 每 个 进程 都 会 在 除 自己 本 部 分 数据 之 
外 ,还 需要 获取 周围 重 且 区 域 的 数据 ,并 对 该 带 有 重 全 区 的 矩阵 进行 预 处 理 分 解 。 由 于 限 
制 型 策略 仅仅 需要 更 新 本 区 域内 的 解 向 量 ,因此 进一步 减少 了 1 次 updatehalo 的 通信 
开销 。 
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对 方程 进行 了 36 个 时 步 的 迭代 计算 , 预 处 理 改进 前 后 迭代 次 数 之 间 的 比较 如 图 4-20 
所 示 。 


iteration number 
2500: 
2000 
1500 
1000: H H 
500 
5 LH | 一 
~ e NOCERE CMES 
S9 oe ey e? EO Jon 
J^ P X N ay? aem 48m Ro: 
Eo E a gE E e. Ur Ns 


E 4-20 预 处 理 改进 前 后 迭代 次 数 之 间 的 比较 


在 出 现 “ 错 误 ! 未 找到 引用 源 ” 时 , 带 有 *“b. ”的 为 原 预 处 理 的 迭代 次 数 ,不 带 “b. ”的 
为 改进 之 后 预 处 理 的 迭代 次 数 。 可 以 看 出 ,改进 之 后 预 处 理 的 迭代 次 数 比 原 预 处 理 的 和 
代 次 数 减少 了 将 近 1/3。 不 仅 如 此 ,GCR 整个 计算 过 程 的 并 行 加 速 比 也 得 到 了 明显 的 提 
高 ,如 图 4-21 Bros o 
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图 4-21 预 处 理 改进 之 后 GCR 的 并 行 加 速 比 
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预 处 理 技术 。 然 后 ,以 在 气象 领域 中 求解 Helmholtz 方程 为 例 ,给 出 其 并 行 化 方案 ,并 对 

此 方案 进行 了 实际 测试 与 结果 分 析 。 在 原 算法 的 基础 上 ,对 算法 实现 的 预 处 理 部 分 进行 
了 优化 ,明显 地 提高 了 GCR 整个 计算 过 程 的 并 行 加 速 比 。 
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